AI芯片“分工”时刻来临！谷歌第八代TPU为什么要拆分成两款独立芯片？

作者：爱集微 7小时前

来源：钜亨网 #谷歌#

1634

在周三 (22 日) 举行的 Google Cloud Next 2026 大会上，谷歌(GOOGL-US) 正式发布其第八代张量处理器 (TPU) 的两款全新产品，专为 AI 模型训练设计的 TPU 8t 与专为推理优化的 TPU 8i，这是谷歌史上首次将训练与推理任务拆分至独立芯片，标志着其 AI 硬体策略的重大转向。

谷歌两款芯片均打算在今年稍晚正式对外供应，旨在透过专项优化应对日益分化的 AI 工作负载，并以更具成本效益的方式提供大规模吞吐量和低延迟，满足数百万个 AI 智能体同时运行的需求。

谷歌此次战略调整是对 AI 计算特性分化的直接回应。随着 AI 智能体兴起，预训练、后训练与即时推理在运算需求上已显著不同；训练任务追求极致的吞吐量与规模扩展，而推理任务则对延迟和并发更为敏感。

谷歌资深副总裁兼 AI 与基础设施技术长 Amin Vahdat 指出，业界将受惠于针对这两类需求专门优化的芯片。

Alphabet 执行长皮查伊也强调，这项架构旨在以低成本提供大规模算力。从市场角度来看，统一芯片往往导致某一场景下的资源浪费，而双芯片策略能显著提升价格效能比，降低云端 AI 基础设施的整体拥有成本。

在效能数据上，第八代 TPU 相比去年 11 月发布的第七代 Ironwood 有了巨大飞跃。 TPU 8t 在同等价格下效能提升 2.8 倍，TPU 8i 效能提升 80%，两款芯片的能源效率表现特别亮眼，

此外，每瓦效能均较上一代提升逾一倍，其中 TPU 8t 达到 124%，TPU 8i 达到 117%，两款芯片均整合了基于安谋架构的 Axion CPU，以消除资料预处理延迟造成的主机侧瓶颈，确保 TPU 运算单位持续满载运作。第八代 TPU 延续了成熟的软体体系，支援 JAX、PyTorch、Keras 及 vLLM 等主流框架，原生 PyTorch 支援现已进入预览阶段，使用者可直接迁移模型而无需修改程式码。

TPU 8t 定位为超大规模训练的算力引擎，号称能将前沿模型的开发周期从数月压缩至数周。

在规模上，它最多可将 9600 块芯片组合为单一超级运算节点，并透过 JAX 与 Pathways 框架将分散式训练扩展至单一集群超过 100 万块芯片，其核心技术创新包括：专门处理嵌入查找的 SparseCore 加速器、原生 FP4 支援 (使 MXU 吞吐量翻倍并降低能耗)，以及更均衡的向量处理单元扩展设计。

网路层面引进了全新的 Virgo 架构，数据中心网路频宽提升最高 4 倍，芯片间互联频宽提升 2 倍，单一网路可连接逾 13.4 万个芯片。

储存方面则透过 TPUDirect 技术绕过 CPU 直接传输数据，存取速度提升 10 倍，确保处理大规模多模态资料集时算力不闲置。

TPU 8i 则面向高并发推理场景，重心在于降低延迟与提升并发处理能力，其最显著的硬体特征是整合了 384MB 静态随机存取存储器，容量是上一代的三倍，可将更大的 KV Cache 保留在片上，大幅减少长上下文解码的等待时间。

此外，它引入了集合加速引擎 (CAE)，专门加速自回归解码与思维链处理，使片上集合操作延迟降低 5 倍。

在网路拓扑上，TPU 8i 放弃了传统的 3D 环面结构，转而采用全新的 Boardfly 互联拓扑，将最大跳数压缩至 7 跳，全对全通讯延迟改善最高 50%，这对混合专家模型和频繁的跨芯片令牌路由极为有利。TPU 8i 的 Pod 规模可扩展至 1152 块芯片，透过光学电路交换器实现组间互联。

此次发布不仅展示谷歌在芯片设计上的技术深度，也反映其供应链策略的调整。

TPU 8t 由博通共同设计，主打极致性能，TPU 8i 则首次牵手联发科，旨在优化成本与效率。

《华尔街见闻》报导指出，这种双轨策略不仅让谷歌能分别针对训练和推理做深度定制，实现性能与成本的最优解，也透过多供应商布局打破了单一供应源的溢价与产能风险。

随着 AI 算力重心从训练全面转向推理，谷歌凭藉这一软硬一体的全端布局，正试图在英伟达 (NVDA-US) 主导的市场中，透过极致性价比和专用化设计抢占更多企业级 AI 市占率。