|
AI算力竞争的焦点,正在从单卡转向超节点。超节点是AI时代的核心计算单元,正在成为衡量token生产力的核心指标,也检验着从芯片、内存、通信到供电与冷却的全栈协同创新。中国在AI竞赛中从美国技术栈解耦,“用群计算补单芯片”的路径,不仅必要,而且正在变得可行。
在上周的乌镇互联网大会上,曙光ScaleX640超节点登台亮相。这是今年继华为昇腾384与阿里磐久128之后,又一款国产的百卡级的超节点技术栈,而且单一机柜互联规模越来越大。此外,中兴、浪潮与新华三也在跟进。
超节点的出现与演进,是对大模型技术趋势的响应。扩展定律驱动的参数指数增长、从训练到推理的场景泛化、以及向多模态与智能体的跃迁,正在共同施压AI基础设施。除了提升单卡性能,要更有效地兑现token经济学,就需要“大规模、高带宽、低时延”的超节点架构。
对中国算力生态而言尤其如此。在算力有限与成本敏感环境中,万亿参数MOE是中国大模型厂商的默认主流方案,专家越来越稀疏,专家间通信越来越频繁。Kimi K2与Qwen3‑Max总参数规模已经超越万亿,其他厂商也将在接下去几个月的模型迭代中接近这一规模;稀疏模型的专家(Expert)规模也在快速膨胀,Qwen3-Next足足512个专家。按照官方说法,相比传统方案,最新的曙光ScaleX640超节点,可实现万亿参数MoE大模型在训练与推理场景,获得30%-40%的性能提升。
超节点是一个行业概念,口径不一,而非严格的技术标准。业内根据互联拓扑的带宽密度与拓扑直径,将算力耦合程度划分为Node、Pod与Cluster等多个层级。部分厂商将单一机柜的互联称为SuperNode,跨机柜的互联称为SuperPod。英伟达往往将单机柜称为Rack-Scale,谷歌则称之为Cube。
中国正在寻求单柜算力密度的突破。在目前已公开的超节点中,曙光ScaleX640实现了单柜640卡超高速总线纵向互连,相对领先。它还能通过“一拖二”高密架构设计,组成千卡级计算单元,最终可保障10万卡级超大规模集群扩展部署。同样实现单柜百卡互联,集群十万卡互联的,还有阿里巴巴的磐久超节点(SuperNode)。它单柜最大支持2组纵向扩展,共128个GPU,并支持10万卡稳定互联的灵骏集群。阿里巴巴的下一步是512颗AI芯片的纵向扩展,全光互连。曙光ScaleX640与磐久128都采用了正交架构设计,高密度集成,有助于降低信号衰减与时延。
目前,英伟达在售最先进超节点为GB300 NVL72,即72个B300在Oberon机柜内部纵向互联,可横向扩展为576卡互联,并可部署为数十万卡集群。但英伟达也将基于最新的kyber机架,提升单柜密度。在最近的GTC上,黄仁勋透露会在明年推出Vera Rubin NVL144,后年推出Rubin Ultra NVL576。
谷歌与亚马逊的超节点,单柜算力密度膨胀速度不如英伟达。谷歌即将上市的最新Ironwood,单一SuperPod最多可通过OCS(光学电路交换机)容纳9216颗芯片,还能横向扩展到数十个SuperPod。不过,它单一机柜通过ICI(高速芯片间互连)互联的TPU为64块。亚马逊的Trainium2 UltraServer,为64卡纵向互联,完整集群可部署40万颗Trainium2;市场预估下一代的Trainium3 UltraServer可以达到单柜128卡规模。
通信巨头华为,更接近于谷歌与亚马逊的模式。目前,根据华为Atlas 900超节点(Superpod)——大家常听到的CloudMatrix384是华为云基于该超节点构建的云服务实例——的用户指南,它由12个计算柜和4个总线柜组成,单一计算柜4个计算节点共32卡,还“可构建16万卡超算集群,满足十万亿参数级大模型训练需求,突破传统架构扩展极限。”
依托于昇腾单卡算力性能的逐步追赶,以及灵衢(UnifiedBus)互联协议链接,保持低延迟的全局通信,徐直军称华为的“在未来多年都将是全球最强算力的超节点”。 明年四季度,华为Atlas 950超节点预期上市,柜内正交架构,柜间全光互联,支持单机柜64卡(128个计算柜),共8192张Ascend 950芯片。相比英伟达同期超节点新品,它的总算力是其6.7倍,内存容量是其15倍,互联带宽是其62倍;它还可以进一步构建50万卡集群。到2027年四季度,将是支持15488张昇腾卡的Atlas 960超节点,其中单机柜88卡(176个计算柜),总算力、内存容量、互联带宽在Atlas 950基础上再翻倍。
但无论如何,各家巨头的超节点,单柜算力密度与整体算力规模都在大幅提升。为了让电力适配算力的扩展,国内外算力巨头都在提出400伏到800伏的高压直流,未来将引入固态变压器(SST)。这些技术选择也将深刻重塑整个配电架构,进而影响超节点竞争格局。
中国的超节点方案的演进方向,不仅受到技术路径的推动,也受到产业结构的影响。
英伟达是明显的垂直整合模式,其核心是通过对整个技术栈的端到端控制,实现最优的性能和效率;这也能将用户锁定在自己的封闭生态内,增加用户迁移成本,并压榨出更高的利润率。谷歌也是典型的垂直整合模式,但它的TPU目前仍然更多内部采用。
而AMD以及亚马逊等超大规模用户,则往往采取“协议开放”的模式,AMD带头创建了UAlink联盟,博通则推动OpenAI加入基于以太网(Ethernet)纵向扩展(Scale-Up)网络方案的ESUN联盟。这种模式的核心挑战在于生态系统的碎片化和性能优化的难度。
而对于中国而言,开源开放与协同创新,是产业结构决定的现实路径。无论是阿里巴巴、华为还是中科曙光,中国的超节点方案,正在走向芯片、内存、通信到供电与冷却的全栈协同创新,这与模型—芯片的协同设计逻辑一致。事实上,超节点很难是单一巨头的单打独斗。就连封闭生态的英伟达,也在走向有限合作。至少,配电不是黄仁勋的专业领域。今年,在COMPUTEX上,他宣布成立800V高压直流(HVDC)供电供应商联盟。
中国虽然在半导体制造链条上填补了多个关键空白,但单卡性能仍与全球领先产品存在“纳米级”差距,且国内 GPU 厂商多点并行、市场高度碎片化,难以依赖单一芯片形成规模优势。一方面,这要求国内为数众多的开发者与研究者能够低门槛地加速融入接入国产算力生态,;另一方面,也要通过开放兼容的结构层,消除供应链的不确定性。
在摆脱对英伟达依赖的过程中,为了减少迁移成本,尽管阿里巴巴、华为还是中科曙光,在垂直自研领域积累相对雄厚,都拥有自己的CPU与GPU产品线,但都坚持旗下超节点相关技术栈的开源开放。
今年9月,中科曙光联合20家供应链企业共同发布的“AI计算开放架构”,即曙光ScaleX640超节点的前身,在硬件层面支持多品牌加速卡,软件层面兼容主流计算生态;在华为全联接大会2025上,华为宣布CANN编译器、虚拟指令集接口与灵衢2.0技术规范开放,Mind系列应用使能套件及工具链全面开源;在云栖大会上,阿里云展示的磐久服务器,支持第三方芯片,包括兼容海光K100、燧原S60等主流国产GPU以及飞腾S500c、海光C86-3G等主流国产CPU——只要它们乐意适配Alink。 中国开源模型正在征服硅谷的AI应用企业,也在全球南方加速渗透,牵引着中国完整的AI技术栈的边际外溢。也许中国的超节点暂时无法进入欧美市场,但随着AI全球竞争从前沿大模型与先进AI芯片,转向更为商品化的token生产力的竞争,中国的超节点产品也将出海赢得自己的一席之地。
|