AI芯片“分工”时刻来临!谷歌第八代TPU为什么要拆分成两款独立芯片?

来源:钜亨网 #谷歌#
1634

在周三 (22 日) 举行的 Google Cloud Next 2026 大会上,谷歌(GOOGL-US) 正式发布其第八代张量处理器 (TPU) 的两款全新产品,专为 AI 模型训练设计的 TPU 8t 与专为推理优化的 TPU 8i,这是谷歌史上首次将训练与推理任务拆分至独立芯片,标志着其 AI 硬体策略的重大转向。

谷歌两款芯片均打算在今年稍晚正式对外供应,旨在透过专项优化应对日益分化的 AI 工作负载,并以更具成本效益的方式提供大规模吞吐量和低延迟,满足数百万个 AI 智能体同时运行的需求。

谷歌此次战略调整是对 AI 计算特性分化的直接回应。随着 AI 智能体兴起,预训练、后训练与即时推理在运算需求上已显著不同;训练任务追求极致的吞吐量与规模扩展,而推理任务则对延迟和并发更为敏感。

谷歌资深副总裁兼 AI 与基础设施技术长 Amin Vahdat 指出,业界将受惠于针对这两类需求专门优化的芯片。

Alphabet 执行长皮查伊也强调,这项架构旨在以低成本提供大规模算力。从市场角度来看,统一芯片往往导致某一场景下的资源浪费,而双芯片策略能显著提升价格效能比,降低云端 AI 基础设施的整体拥有成本。

在效能数据上,第八代 TPU 相比去年 11 月发布的第七代 Ironwood 有了巨大飞跃。 TPU 8t 在同等价格下效能提升 2.8 倍,TPU 8i 效能提升 80%,两款芯片的能源效率表现特别亮眼,

此外,每瓦效能均较上一代提升逾一倍,其中 TPU 8t 达到 124%,TPU 8i 达到 117%,两款芯片均整合了基于安谋架构的 Axion CPU,以消除资料预处理延迟造成的主机侧瓶颈,确保 TPU 运算单位持续满载运作。第八代 TPU 延续了成熟的软体体系,支援 JAX、PyTorch、Keras 及 vLLM 等主流框架,原生 PyTorch 支援现已进入预览阶段,使用者可直接迁移模型而无需修改程式码。

TPU 8t 定位为超大规模训练的算力引擎,号称能将前沿模型的开发周期从数月压缩至数周。

在规模上,它最多可将 9600 块芯片组合为单一超级运算节点,并透过 JAX 与 Pathways 框架将分散式训练扩展至单一集群超过 100 万块芯片,其核心技术创新包括:专门处理嵌入查找的 SparseCore 加速器、原生 FP4 支援 (使 MXU 吞吐量翻倍并降低能耗),以及更均衡的向量处理单元扩展设计。

网路层面引进了全新的 Virgo 架构,数据中心网路频宽提升最高 4 倍,芯片间互联频宽提升 2 倍,单一网路可连接逾 13.4 万个芯片。

储存方面则透过 TPUDirect 技术绕过 CPU 直接传输数据,存取速度提升 10 倍,确保处理大规模多模态资料集时算力不闲置。

TPU 8i 则面向高并发推理场景,重心在于降低延迟与提升并发处理能力,其最显著的硬体特征是整合了 384MB 静态随机存取存储器,容量是上一代的三倍,可将更大的 KV Cache 保留在片上,大幅减少长上下文解码的等待时间。

此外,它引入了集合加速引擎 (CAE),专门加速自回归解码与思维链处理,使片上集合操作延迟降低 5 倍。

在网路拓扑上,TPU 8i 放弃了传统的 3D 环面结构,转而采用全新的 Boardfly 互联拓扑,将最大跳数压缩至 7 跳,全对全通讯延迟改善最高 50%,这对混合专家模型和频繁的跨芯片令牌路由极为有利。TPU 8i 的 Pod 规模可扩展至 1152 块芯片,透过光学电路交换器实现组间互联。

此次发布不仅展示谷歌在芯片设计上的技术深度,也反映其供应链策略的调整。

TPU 8t 由博通共同设计,主打极致性能,TPU 8i 则首次牵手联发科,旨在优化成本与效率。

《华尔街见闻》报导指出,这种双轨策略不仅让谷歌能分别针对训练和推理做深度定制,实现性能与成本的最优解,也透过多供应商布局打破了单一供应源的溢价与产能风险。

随着 AI 算力重心从训练全面转向推理,谷歌凭藉这一软硬一体的全端布局,正试图在英伟达 (NVDA-US) 主导的市场中,透过极致性价比和专用化设计抢占更多企业级 AI 市占率。

责编: 爱集微
来源:钜亨网 #谷歌#
THE END
关闭
加载

PDF 加载中...