日前,在昆山的人工智能创新大会(HAIC 2025)上,中科曙光展示了首个国产万卡级AI超集群——scaleX 万卡超节点真机。这是中国AI算力史上的一个标志性时刻,超节点真正意义上迈入万卡纪元。
Scale X万卡超级群的落地,不仅是一次超节点技术的权利交接,更是中国AI算力基础设施在发展路径上给出的新答案。
超节点之始
三年前,国内的 AI 算力体系基本都得靠英伟达,不管是 GPU 加速卡、NVLink 高速互联技术,还是 CUDA 软件栈,都是NV的东西。这套方案几乎成了行业默认标准,也让整个产业链对这一家供应商的依赖越来越明显。
转折点就出在英伟达芯片的出口限制上。高端 GPU 一缺货,再加上 CUDA 生态不对外开放、NVLink 技术也不给授权,国内厂商这下不得不琢磨一个现实问题:要是没了英伟达,我们自己能搭起什么样的算力体系?
最先给出答案的是华为,它走了一条 “全栈自研” 的路,从底层芯片、互联技术,到上层框架软件,全都是自己研发的。
后来横空出世的 384 超节点,也延续了这种纵向一体化的思路,芯片、通信协议、操作系统和框架生态全是自研。靠着系统层面的高度一致性,它的性能相当能打:通信延迟只有 2.1 微秒,单机柜算力能达到 300PFlops,PUE 还能稳定在 1.1 左右。单看这些参数,确实能和英伟达掰掰手腕。
不过和英伟达一样,华为也选择了 “封闭自洽” 的路线。这种模式虽然能把资源效率拉满,技术把控力也强,但短板也很突出:生态兼容性比较受限,整个产业的协同推进速度也会慢一些。
走向岔路口
在全球 AI 算力领域,超节点被看作是下一代智能计算的核心单元。它可以把几十、几百甚至上万张 AI 加速卡,整合为一个统一的逻辑节点,将通信时延压缩到微秒级别,以此突破传统算力集群的通信瓶颈。这样的技术优势,也吸引了不少行业巨头入局布局。2025 年下半年,阿里、浪潮、曙光就先后推出了各自的超节点产品。
这三家厂商选择的技术路线,和华为有所不同。它们以 “开放架构” 为核心,走出了一条全新的道路,致力于打造属于中国的 AI 算力底层基础。
其中,发布时间相对较早的浪潮 “元脑 SD200” 和阿里 “磐久 128”,共同搭建起了国产开放架构体系的雏形。浪潮这款产品主打多品牌 GPU 异构计算,还创下了 8.9 毫秒生成 token 的亮眼纪录;阿里的产品则依靠开放协议整合不同互联标准,成功搭建出 “云端超节点”。
而中科曙光在 HAIC 大会上推出的 scaleX 万卡超节点真机,也是备受关注。这套系统由 16 个 scaleX640 超节点互联组成,总共部署了 10240 张 AI 加速卡,总算力突破 5EFlops。它搭载的自研 scaleFabric 高速网络,带宽能达到 400Gb/s,端侧延迟还不到 1 微秒。同时,曙光采用浸没相变液冷技术,将单机柜的 PUE 压低至 1.04,堪称名副其实的算力巨兽。
更关键的是,这款产品不绑定任何单一芯片厂商。scaleX640 能够兼容寒武纪、壁仞、登临等多个品牌的加速卡,并且已经适配了 400 多个主流大模型和 AI 框架。这也意味着,中国的 AI 算力真正具备了 “多芯片共存” 的能力,实现了算力生态的多元化发展。
去英伟达化
随着国产算力厂商的集体突破,“去英伟达化” 早已不是一句口号,而是我国保障算力安全、推进自主创新的共同需求。
从 2023 年起,美国多次收紧对华高性能 GPU 的出口限制,A100、H100 等主力型号相继被列入管控清单,英伟达的超节点NVL72 也是在限制之内。尽管近期美国政府对部分型号的限售政策略有松动,但覆盖范围也仅限于 H 系列。再加上此前有消息指出英伟达芯片可能存在安全后门,相关的安全风险进一步凸显。
这一系列变化,倒逼中国 AI 产业加速寻找替代方案。但我们的核心目标,并不是简单再造一个类似英伟达的企业,而是要搭建一套具备可替代性的完整算力生态系统。目前来看,国内已经涌现出两套颇具代表性的发展路径:一条是走封闭全栈的纵向整合路线,以华为昇腾为典型代表;另一条则是主打开放协同,像曙光、浪潮、阿里这些企业都在这条赛道上发力。
在落地应用层面,各家的产品也已经崭露头角。华为的CM384已经出货很多套,在贵州的数据中心正常使用运营;浪潮的 SD200 已经在多个模型推理平台实现商用,成为 DeepSeek 与 Kimi 等大模型的重要算力支撑;阿里的磐久 128 在云端搭建起大规模集群,承担起多模型协作的基础设施角色;曙光的 scaleX640 更是已经落地上海、杭州等地的智算中心,还被纳入国家级算力调度工程的采购清单。
更值得关注的是,开放路线的推进,还带动了国产芯片的大规模落地应用。曙光的 scaleX 体系已经完成了对壁仞 BR 系列、登临、寒武纪 MLU 等多款国产加速卡的适配,浪潮和阿里也在为本土 GPU 提前预置驱动环境。这意味着,国内的算力基础设施不再依附于单一的英伟达生态,转而形成了以中国厂商为核心的开放协作系统。
“过去几年大家都在埋头造芯,现在终于有地方能让这些芯片真正跑起来了。” 一位业内人士这样感慨,“这其实比单纯拿到订单更有价值,它标志着中国 AI 算力体系开始具备自我造血的能力。”
2025 年,堪称中国 AI 算力体系发展的 “拐点之年”。封闭路线凭借其技术优势,占据着性能高地,代表着极致的算力表现与可靠的可控性,在特定场景中具备不可替代的价值;开放路线则贴合产业发展的现实需求,有力推动了算力普惠与生态繁荣,为行业带来了更多可能性。国内算力产业的发展逻辑也在悄然转变:不再是单一维度的性能比拼,而是更注重不同芯片的高效协同;不再是不同体系间的孤立较量,而是趋向于多元生态下的共生共赢。中国 AI 算力的未来,很可能就藏在这两条路线的共存与平衡之中,被重新书写与定义。
|