|
数据中心4件套(存储、网络、SSD、服务器)全解系列PPT和PDF姊妹篇已全部发布,更新预告:AI 超节点基础知识全解(精编版)。请通过“[url=]架构师技术全店资料打包汇总(全)[/url]”获取(之前购买过的读者,从打包链接或微店留言免费获取)。 ——以下正文—— 当我们惊叹于 Gemini 等大模型的强大能力时,很少有人意识到:支撑这些 “AI 大脑” 的,是一套堪比 “超级城市群” 的网络架构。谷歌最新的 TPU v7 超算,就像一座拥有 15 万栋 “智能建筑” 的未来都市,而连接这一切的光模块配比,藏着谷歌的核心组网智慧 —— 只用 1.5 和 2.6 两个数字,就破解了超大规模 AI 集群的通信难题。 本文配图来自“AI未来课代表”,笔者就用最通俗的方式拆解这套 “组网魔法”,看看谷歌如何用 “社区小路 + 城际高速” 的思路,让 15 万颗 TPU 芯片 “齐心协力”,释放出颠覆行业的算力。
一、超算的核心矛盾:不是 “大脑” 不够,而是 “道路” 不通很多人以为,超算的性能上限取决于芯片数量 —— 就像觉得一座城市的实力只看人口多少。但谷歌用实际行动证明:没有高效的连接网络,再多的 “AI 大脑” 也只是一盘散沙。 想象一下,你有 15 万个顶尖科学家,却让他们分散在世界各地、无法交流。即便每个人都是天才,他们的集体智慧也几乎为零。AI 超算也是同理:TPU 芯片就是这些 “科学家”,而光网络就是他们的 “交流通道”。这个通道的带宽、延迟和稳定性,直接决定了大模型训练的速度和效率。
为了让这个复杂的网络架构更容易理解,谷歌给我们画了一个生动的类比:把 TPU 超算看作一座 “AI 城市”。 - TPU 芯片:城市里的每一栋房子(每个 “AI 大脑”);
- 机柜(Rack):城市中的一个 “社区”,每个社区里有 64 栋房子(64 颗 TPU);
- ICI(机柜间互联):社区内的毛细血管道路,连接邻里,满足日常通勤需求;
- DCN(数据中心网络):连接各大区域的城际高速公路,负责大规模、远距离的 “交通”。
搭建超算的过程,就是从 “社区” 到 “都市圈” 的扩张过程。而光模块,就是这座城市里的 “道路出入口”—— 每个出入口的数量和规格,直接决定了交通的顺畅程度。 谷歌的天才之处在于,它没有用复杂的公式,而是提炼出两个核心数字,让整个组网过程变得像搭乐高一样简单。 二、基础配置:1.5 个光模块 / TPU,社区小路的 “必配标准”任何城市的建设,都要先从社区内部的道路开始。对于 TPU v7 超算来说,这个 “基础建设” 就是 ICI 互联对应的光模块配比。 谷歌定义的最小物理单元是机柜(Rack),每个机柜里装有 64 颗 TPU 芯片。为了让这 64 颗 “AI 大脑” 能高效沟通,形成 3D 环面网络(相当于社区内的路网全覆盖),需要配备 96 个光模块。 简单计算一下:96 个光模块 ÷ 64 颗 TPU = 1.5 个光模块 / TPU。
这个 1.5,就是 “社区小路” 的固定建造成本。它意味着:无论你的 TPU 集群规模多大,每颗 TPU 都必须标配 1.5 个 ICI 光模块。哪怕你只需要 1 颗 TPU 做简单推理,这个基础配比也不会改变 —— 就像再小的房子,也得有门和小路连接邻里。 为什么是 1.5 这个看似 “不整数” 的数字?这背后是谷歌对网络效率和成本的精准平衡。3D 环面网络需要每个 TPU 与周边芯片形成多维度连接,1.5 的配比既能满足内部通信的低延迟需求,又不会因为光模块过多导致成本浪费。 这个数字的本质,是谷歌为 TPU 芯片设定的 “基础通信接口标准”。有了这个标准,任何数量的机柜都能快速组网,形成标准化的 “AI 社区”,为后续的规模扩张打下基础。 三、规模升级:2.6 个光模块 / TPU,城际高速的 “额外投资”当 “AI 社区” 的数量越来越多,单一社区的 “小路” 就无法满足跨区域的通信需求了。就像一个城市发展成都市圈,必须修建城际高速公路才能连接各个区域 —— 这就是 DCN 网络的作用。 DCN 网络是为超大规模训练任务而生的,比如训练 Gemini 这样的千亿参数大模型。这类任务需要海量 TPU 协同工作,数据要在不同机柜、不同区域间快速传输,普通的 “社区小路” 根本无法承载。
谷歌通过三层网络架构(Spine OCS、Leaf Spine、ToR Leaf)构建了 DCN “高速公路网”: - 底层 ToR(Top of Rack)交换机:相当于每个社区的出入口收费站;
- 中层 Leaf 交换机:相当于城市的交通枢纽;
- 顶层 Spine OCS(光路交换机):相当于连接各大城市的高速干线。
这套复杂的网络需要大量光模块来搭建链路。谷歌通过无阻塞网络架构估算得出:一旦 TPU 集群规模超过 9216 颗,每颗 TPU 就需要额外承担 2.6 个光模块的成本,用于接入 DCN “高速公路网”。 这个 2.6 可以理解为:每栋 “房子” 除了自己的 “社区小路”,还需要为 “城际高速” 贡献 2.6 个 “出入口”。这些额外的光模块,让数据能在 15 万颗 TPU 之间快速流转,实现超大规模并行计算。 值得一提的是,谷歌在 DCN 网络中用到了一个 “独门绝技”—— 环形器(Circulator)技术。它能让一根光纤同时 “收发” 数据,相当于把单行道变成了双向车道,极大节省了光纤资源和成本。再加上采用业界顶级的 800G OSFP 规格光模块,这套 “高速公路网” 的通信效率达到了行业顶尖水平。 四、实战演练:不同场景下的光模块配比方案有了 1.5 和 2.6 这两个核心数字,谷歌 TPU v7 的光模块配比就变得清晰明了。不同的应用场景,对应不同的 “组网套餐”,我们通过三个实战案例来具体看看: 场景一:推理小镇(1 个推理切片,1024 颗 TPU)推理任务通常是 “小范围闭环”—— 就像一个自给自足的小镇,居民很少需要跨市出行。比如用 AI 做图片识别、语音转文字,数据处理都能在单个切片内完成,不需要频繁的跨集群通信。
因此,这个场景只需要 “社区小路”(ICI),不需要 “城际高速”(DCN)。光模块需求计算如下:1024 颗 TPU × 1.5 个光模块 / TPU = 1536 个光模块。 这个配置足够满足中小规模推理任务的需求,成本低、效率高,是最经济的 “基础套餐”。 场景二:训练主城(1 个聚合块,36864 颗 TPU)这是主流大模型训练的常见规模 —— 相当于一座人口密集的主城,需要连接各个社区的交通网络。比如训练中等规模的行业大模型,需要海量数据在不同机柜间传输,必须同时配备 “社区小路” 和 “城际高速”。
光模块需求计算如下: - 社区小路:36864 颗 TPU × 1.5 个光模块 / TPU = 55296 个光模块;
- 城际高速:36864 颗 TPU × 2.6 个光模块 / TPU ≈ 95846 个光模块;
- 总计:55296 + 95846 ≈ 15.1 万个光模块。
这个配置的最终配比是 1.5+2.6=4.1 个光模块 / TPU,既能满足内部通信的低延迟,又能支撑跨区域的高速数据传输,是大模型训练的 “主流套餐”。 场景三:全球超联体(4 个聚合块,147456 颗 TPU)这是谷歌 TPU v7 的理论顶级配置 —— 相当于由多个大都市组成的 “全球超联体”,用于训练 Gemini 这样的千亿级参数大模型。这个场景需要 DCN 网络满配,实现 15 万颗 TPU 的协同工作。
光模块需求计算如下: - 社区小路:147456 颗 TPU × 1.5 个光模块 / TPU = 221184 个光模块;
- 城际高速:147456 颗 TPU × 2.6 个光模块 / TPU ≈ 383385 个光模块;
- 总计:221184 + 383385 ≈ 60.5 万个光模块。
这个配置的配比同样是 4.1 个光模块 / TPU,但其背后的网络规模和通信效率达到了行业巅峰。60.5 万个光模块搭建的 “超级公路网”,让 15 万颗 TPU 能像一个整体一样协同工作,这也是谷歌大模型领先行业的核心底气之一。 五、谷歌的组网哲学:大道至简,极致平衡从 1.5 到 4.1 的配比升级,我们能看到谷歌的组网哲学 ——用最简单的规则,实现最复杂的需求。 很多厂商在搭建超算时,会陷入 “参数堆砌” 的误区:追求更多的光模块、更高的带宽,但却忽略了成本和效率的平衡。而谷歌通过两个核心数字,将超算组网简化为 “基础套餐 + 升级套餐” 的模式:
- 基础套餐(1.5 个光模块 / TPU):满足所有场景的基础通信需求,标准化设计降低了组网复杂度;
- 升级套餐(2.6 个光模块 / TPU):针对大规模训练场景,按需升级,避免了资源浪费。
这种设计既保证了灵活性,又控制了成本。同时,谷歌还通过细节优化进一步提升性价比:比如在机柜内部的短距离连接中使用铜缆,替代昂贵的光纤;在 OCS 连接中采用环形器技术,实现单纤双向通信。这些 “独门绝技”,让谷歌的超算在性能领先的同时,还具备了成本优势。 对于行业来说,谷歌 TPU v7 的组网方案提供了一个重要启示:超算的竞争力,不在于单个组件的性能,而在于系统的协同效率。15 万颗 TPU 之所以能释放出惊人的算力,关键在于谷歌用一套高效、简洁的网络架构,让这些 “AI 大脑” 能无缝协作。 六、结语:网络为王,算力时代的核心竞争力在大模型竞争进入深水区的今天,算力的比拼已经从 “芯片数量” 转向 “系统能力”。而系统能力的核心,就是网络架构。 谷歌 TPU v7 用 1.5 和 2.6 两个数字,向我们展示了超大规模 AI 集群的组网之道:它就像搭建一座城市,先做好社区内部的 “小路”,再根据规模修建 “高速公路”,用标准化的设计和极致的细节优化,实现性能与成本的平衡。 这套组网方案不仅支撑了谷歌自身的大模型研发,也为整个行业提供了一个可参考的范本。未来,随着大模型规模持续扩大,对超算网络的要求会越来越高。而谷歌的经验告诉我们:真正的技术领先,往往是把复杂的事情变简单,把简单的事情做到极致。 当我们下次再惊叹于大模型的神奇能力时,不妨想一想它背后那套由数十万光模块搭建的 “超级公路网”—— 正是这些看不见的 “连接”,让 AI 的智慧得以绽放。而谷歌的组网秘籍,或许也能给我们带来更多启发:在复杂的世界里,找到核心规则,才能搭建起属于自己的 “超级系统”。
|