通信人家园

标题: 谷歌TPU机架的互联方案,OCS市场空间测算  [查看完整版帖子] [打印本页]

时间:  2025-12-3 14:01
作者: 溯溪而上     标题: 谷歌TPU机架的互联方案,OCS市场空间测算

傅里叶的猫

之前的文章中,我们分析过英伟达的GB200的互联架构:被抛弃的NVL72光互联方案
这篇文章来看下谷歌TPU v7的互联架构,TPU跟铜缆、光模块的比例分别是多少?

由于这篇文章前面的内容比较偏技术,我们准备这周直播的时候讲一下,对于看不进去计算方法的读者,可以关注我们的视频号,到时候看我们的直播。

64 TPU Rack互联架构
本章节内容参考了部分SemiAnalysis的报告。

TPU 最显著的特性之一是通过 ICI 协议实现的超大规模world size的扩展能力,TPU Pod 的world size可达到 9216 颗 Ironwood TPU,解释一下这里的world size,它是分布式训练中的核心概念,指参与并行计算的设备总数。

TPU 机架的设计在过去几代产品中保持了较高一致性。每个机架包含 16 个 TPU tray、16 个或 8 个主机 CPU tray(Host CPU Trays,具体数量取决于散热配置)、一台架顶式交换机(ToR Switch)、电源单元以及备用电源模块(BBUs)。

每个 TPU 托盘内置 1 块 TPU 板卡,板卡上搭载 4 个 TPU 芯片封装。每颗 Ironwood TPU 配备 4 个 OSFP 接口笼(用于 ICI 协议互联)和 1 个 CDFP PCIe 接口笼(用于连接主机 CPU)。

SA的这两个图画的是比较清楚的:

641 1000

谷歌自 2018 年 TPU v3 时代起便开始采用液冷式 TPU 机架,但期间部分迭代型号仍保留了风冷设计。液冷与风冷机架的核心差异在于:风冷机架的 TPU 托盘与主机 CPU 托盘配比为 2:1,而液冷机架则采用 1:1 配比。

在昨天的文章中,我们就提过关于TPU的液冷市场,还是维持之前的观点,持续看好液冷的板块,目前市场的一致预期是:明年才是液冷的元年。因为越来越多的ASIC服务器都是开始配液冷了,市场增量是比较可观的。

2026年:谷歌TPU V7及以上开始全面运用液冷,单柜液冷价值量在7-8万美金左右,明年谷歌TPU V7及以上预计出货250万颗,64颗单柜,对应差不多4万个柜子,对应28-32亿美金液冷市场空间

2027年:谷歌TPU V7及以上出货量预计超500万颗,且随着技术/功耗等升级液冷单柜价值量可能会提升至9-10万美金,对应70-80亿美金液冷市场空间。

谷歌 TPUv7 的 ICI 扩展网络核心构建单元,是由 64 颗 TPU 组成的 4×4×4 三维环形拓扑结构(3D torus)。每个包含 64 颗 TPU 的 4×4×4 立方体单元,对应一个搭载 64 颗 TPU 的物理机架。这一维度设计具备理想适配性:64 颗 TPU 可实现全互连的电气连接,同时完全兼容物理机架的安装空间限制。

641

TPU 以三维环形拓扑结构实现互联,每颗 TPU 共连接 6 个相邻节点 —— 在 X、Y、Z 三个坐标轴上,每个维度各连接 2 个逻辑相邻的 TPU。

在计算托盘内部,每颗 TPU 始终通过PCB走线与另外 2 颗 TPU 相连;而根据该 TPU 在 4×4×4 立方体单元中的具体位置,剩余 4 个相邻节点的连接方式分为两种:要么通过直连铜缆,要么通过光模块。

4×4×4 立方体单元内部的互联采用铜缆传输,而单元外部的连接(包括环形拓扑中跨单元的折返连接,以及与相邻 4×4×4 立方体单元的互联)则采用光模块与OCS。如下图所示,作为三维环形拓扑网络的典型特征:位于 Z+ 面的 TPU(坐标 2,3,4)通过 800G 光模块实现折返连接,经OCS路由至 Z- 面的对应 TPU(坐标 2,3,1)。

641

除通过PCB连接的 2 个相邻 TPU 外,其余 4 个相邻节点的连接方式(DAC、光模块或两者组合),取决于该 TPU 在 4×4×4 立方体单元中的具体位置。

4×4×4 立方体单元内部的 TPU,其 4 个相邻节点均通过DAC互联;位于立方体表面的 TPU 采用 3 根DAC+1 个光模块的连接方案;位于立方体边缘的 TPU 采用 2 个光模块 + 2 根DAC的组合;而位于立方体角落的 TPU 则通过 1 根DAC+3 个光模块实现互联。一个简单的记忆规律是:某一 TPU 所需光模块的数量,等于其朝向立方体 “外部” 的面数。

641

下面这个表,我们可以直接看后面3行,64个TPU Rack中,需要的铜缆是80 根,PCB是64个,光模块是96个,比例分别是1:1.25、1:1和1:1.5。

641

TPU Pod,OCS市场空间
一个 Pod 中 9216 颗 TPU 如何通过 OCS 交换机实现互联?

641

根据谷歌公开规格,单个 TPU 机架搭载 64 颗 TPU 芯片,而 TPU V7 Pod 最多可包含 144 个此类机架,因此单 Pod 的 TPU 总数量为 64×144=9216 颗,形成大规模并行计算集群。

每个 TPU 机架配备 96 个光端口,144 个机架对应的总光端口数为 144×96=13824 个。这一数量与升级后的 OCS 交换机端口容量形成精准适配 ,明年谷歌主力采用的 300 端口 OCS 交换机中,有效端口数为 288 个,48 台该型号交换机的总有效端口数为 48×288=13824 个,恰好满足单 Pod 的光互联需求。

根据上面的章节中讲的TPU跟铜缆和光模块的比例关系,9216的TPU Pod中,需要9216 * 1.25=11520根DAC铜缆,需要9216 * 1.5=13824个光模块,这里的光模块是指1.6T光模块,这也是大家预期明年谷歌需要1000w个1.6T光模块的原因。

根据AYZ的数据,谷歌在 2026 年将需要大约 15,000 台 300 端口的OCS交换机,其中约 12,000 台仍将是谷歌内部的 OCS(由 Celestica 合同制造),剩余大约 3,000 台将通过外部采购,目前计划由 Lumentum 和 Coherent 分配。

至于每个300端口OCS交换机的成本,目前几个渠道给的都不太一样,AYZ给的是10-12w美元,国内这边问到的价格要超过20w美元了。

假设按照15w美元的价格,那么明年OCS的市场空间就是在22亿美元左右。

OCS交换机中,每个模块的价格,可以参考中泰给的数据,买了下面股票的同学,可以自己按1.5w台的出货量来算一下明年这些公司在OCS产业链中的能有多少营收,现在是不是已经price in了。

641




附件: 641 (2025-12-3 13:54, 357.03 KB) / 下载次数 0
https://www.txrjy.com/forum.php?mod=attachment&aid=NzA5NjA2fGJiOTFhZTQ2fDE3NjQ3NTMwMDN8MHww

附件: 1000 (2025-12-3 13:54, 358.91 KB) / 下载次数 0
https://www.txrjy.com/forum.php?mod=attachment&aid=NzA5NjA3fDEyZDE3NzI3fDE3NjQ3NTMwMDN8MHww

附件: 641 (2025-12-3 13:54, 551.57 KB) / 下载次数 0
https://www.txrjy.com/forum.php?mod=attachment&aid=NzA5NjA4fDE4YTJjYmJjfDE3NjQ3NTMwMDN8MHww

附件: 641 (2025-12-3 13:54, 245.88 KB) / 下载次数 0
https://www.txrjy.com/forum.php?mod=attachment&aid=NzA5NjA5fGJjYTkyM2U0fDE3NjQ3NTMwMDN8MHww

附件: 641 (2025-12-3 13:54, 326.56 KB) / 下载次数 0
https://www.txrjy.com/forum.php?mod=attachment&aid=NzA5NjEwfDZhNTEwMzJjfDE3NjQ3NTMwMDN8MHww

附件: 641 (2025-12-3 13:54, 282.51 KB) / 下载次数 0
https://www.txrjy.com/forum.php?mod=attachment&aid=NzA5NjExfGYwMzMxYWQ5fDE3NjQ3NTMwMDN8MHww

附件: 641 (2025-12-3 13:54, 257.88 KB) / 下载次数 0
https://www.txrjy.com/forum.php?mod=attachment&aid=NzA5NjEyfDA4YWU3ZDlmfDE3NjQ3NTMwMDN8MHww

附件: 641 (2025-12-3 13:54, 67.46 KB) / 下载次数 0
https://www.txrjy.com/forum.php?mod=attachment&aid=NzA5NjEzfDdjYTY5YTI4fDE3NjQ3NTMwMDN8MHww




通信人家园 (https://www.txrjy.com/) Powered by C114