通信人家园

标题: 详解华为超节点集群与其组网形式  [查看完整版帖子] [打印本页]

时间:  2025-9-27 19:46
作者: hardywang     标题: 详解华为超节点集群与其组网形式


本文来自“[url=]详解华为超节点集群与其组网形式[/url]”,本文所有资料都已上传至[url=]智能计算芯知识[/url]”星球对应的专栏。
下载链接:
[url=]105+份GPU技术报告合集[/url][url=]100+份AI Agent技术报告合集[/url][url=]清华大学:DeepSeek报告13部曲合集[/url][url=]浙江大学:DeepSeek技术20篇(合集)[/url][url=]330+份DeepSeek技术报告合集[/url][url=]100+份AI芯片技术修炼合集[/url][url=]800+份重磅ChatGPT专业报告[/url][url=]《100个DPU关键知识点(收藏版)[/url][url=]《100个TPU关键知识(收藏版)》[/url][url=]《详解100个CPU基础知识(收藏版)[/url][url=]《100个GPU基础知识(收藏版)》[/url]
... ...
华为发布超节点互联技术,打造“超节点+集群”提供持续算力
(1)超节点和集群:在华为全联接大会2025上,华为发布了最新超节点产品 Atlas 950 SuperPoD和Atlas 960 SuperPoD超节点,分别支持8192及15488张昇腾卡。
面对超节点的互联技术的两个技术难点,华为发布面向超节点的新型互联协议“灵衢”(UB,UnifiedBus)。基于灵衢2.0的Atlas 950 SuperCluster 50万卡集群同时发布,在2027Q4,华为将基于Atlas 960超节点,同步推出Atlas 960 SuperCluster,实现百万卡集群。
(2)昇腾芯片路线图:同时,华为海明确昇腾950-970系列芯片路线图,未来3年开发和规划了三个系列,分别是:Ascend 950系列(包括Ascend 950PR预计在2026Q1推出;和Ascend 950DT预计在2026Q4推出)、Ascend 960系列(预计2027Q4推出)和Ascend 970系列(计划2028Q4推出)。
(3)全球首个通用计算超节点:最后,华为发布基于Kunpeng 950打造的Taishan 950超节点,有望平滑替代大型机、小型机上的传统数据库,预计将在2026Q1上市。
面对超节点的互联技术有两个技术难点:
1、如何做到长距离&高可靠。当前的电互联技术在高速时联接距离短,最多只能支持两柜互联,而当前的光互联技术虽然可以把长距离的多机柜联接在一起,但无法满足可靠性需求。
2、如何做到大带宽&低时延。当前跨柜卡间互联带宽低,和超节点的需求差距达5倍;跨柜的卡间时延大,当前互联技术最好只能做到3微秒左右,和Atlas 950/960设计需求仍然有24%的差距,当时延已经低至2~3个微秒时,已经逼近物理极限,哪怕0.1微秒的提升,挑战都很大。
华为通过引入高可靠的互联协议机制、重新定义与设计光器件和互联芯片、引入百纳秒级故障检测和保护切换解决长距离且高可靠问题;通过多端口聚合与高密封装技术、平等架构和统一协议,实现TB级超大带宽和2.1微妙的超低时延。并将这个面向超节点的新型互联协议命名为“灵衢”(UB,UnifiedBus)。
基于灵衢1.0 的Atlas 900超节点(CloudMatrix 384)自2025年3月开始交付,至今已商用部署300多套。在灵衢1.0的基础上,灵衢2.0进一步完善协议,并优化性能、提升规模,同时华为还将开放灵衢2.0技术规范。
基于灵衢2.0的Atlas 950 SuperCluster 50万卡集群同时发布,由64个Atlas 950超节点互联组成,将52万多昇腾950DT组成整体,FP8总算力可达524EFLOPS,预计将与Atlas 950超节点同步上市;
在灵衢2.0架构中,超节点提供UB-Mesh的组网技术,UB-Mesh中的nD-FullMesh拓扑充分利用了业务数据局部性,优先考虑短程直接互连路径,以最大限度减少数据移动距离并减少交换机使用为目标,是一种兼具高性能和低 成本的拓扑组网。
图1中,Rack内采用2D-FullMesh组网,Rack间采用一层UB Switch互连,支持从64卡线性扩展到8192卡。
UB除了支持采用多级UB Switch扩展组网以外,还支持通过UBoE与以太Switch对接,或者通过OCS实现可变拓扑。
在2027Q4,华为将基于Atlas 960超节点,同步推出Atlas 960 SuperCluster,集群规模进一步提升到百万卡级,FP8总算力达到2 ZFLOPS,FP4总算力达到4 ZFLOPS。
在集群组网上,华为同时支持UBoE与RoCE两种协议,UBoE是把UB协议承载在以太网上,让客户能够利用现有以太交换机。相比传统RoCE,UBoE组网的静态时延更低、可靠性更高,交换机和光模块数量都更节省。
根据华为官网数据,Atlas 950 SuperCluster 在RoCE协议需要45000台交换机,300万个光模块,在UBoE协议下,需要39000台交换机和222万个光模块。
同时,华为海明确昇腾950-970系列芯片路线图,未来3年开发和规划了三个系列,分别是:
Ascend 950系列,包括两颗芯片:Ascend 950PR和Ascend 950DT,前者主要面向推理Prefill阶段和推荐业务场景(电子商务、内容平台、社交媒体等),预计在2026Q1推出;后者更注重推理Decode阶段和训练场景,预计在2026Q4推出。
Ascend 960系列,算力、内存访问带宽、内存容量、互联端口数等规格相比Ascend 950翻倍,预计在2027Q4推出。Ascend 970系列,计划在2028Q4推出。
最后,华为发布基于Kunpeng 950打造的Taishan 950超节点,是全球首个通用计算超节点,其最大支持16节点,32个处理器,最大内存48TB,同时支持内存、SSD、DPU池化,有望平滑替代大型机、小型机上的传统数据库,预计将在2026Q1上市。
灵衢已在Atlas 900 A3 SuperPoD等产品实践与验证,适合AI技术与产业发展。更多详细的信息,请参考灵衢系列规范,包括《[url=]灵衢基础规范[/url]》、《[url=]超节点灵衢®固件规范[/url]》、《[url=]灵衢使能操作系统参考设计[/url]》 。更多关于超节点内容,请参考“[url=]《超节点发展报告(2025)》[/url]”。


时间:  2025-9-27 20:19
作者: 不吹不黑

超详细的介绍
时间:  2025-9-28 07:12
作者: 777888999

不错
时间:  2025-9-28 17:20
作者: coffee198375

学习了。。。。




通信人家园 (https://www.txrjy.com/) Powered by C114