C114门户论坛百科 APP EN | 举报切换到宽版

通信人家园 › 论坛 › 通信产业·企业 › 运营商·运营人 › 万卡集群网络选型：国产IB批量出货，改写行业性价比规则

返回列表

查看: 146|回复: 0

万卡集群网络选型：国产IB批量出货，改写行业性价比规则 [复制链接]

苏阿阿

军衔等级：

中尉

266

电梯直达

1^# 大中小

发表于 2026-5-26 19:49:34 |只看该作者 |倒序浏览

大模型训练正式进入万卡、十万卡规模化时代，算力竞争的核心逻辑已经发生根本性转变。单纯堆叠GPU芯片不再是集群性能的决胜因素，高速互联网络的质量，才是决定整体算力利用率、模型训练速度、集群稳定性的关键瓶颈。

行业实测数据显示，稠密大模型训练的通信耗时占比超过30%，MoE稀疏模型通信占比更是突破50%，网络微小抖动、延迟波动、偶然丢包，都会造成大规模GPU空转等待，直接导致集群算力利用率大幅下滑。

在行业长期深陷进口IB价格高昂、RoCE大规模不稳的两难格局下，中科曙光scaleFabric全栈自研国产IB已实现批量出货与大规模商用落地，凭借原生无损RDMA架构，彻底打破传统技术路线桎梏，成为当前万卡、十万卡智算集群的最优组网选择。

- 01 -

万卡时代网络困局：两条传统路线均存在致命短板

万卡级超大规模集群依托高频All-Reduce通信、张量并行、流水线并行等机制完成分布式训练，数万GPU实时高频数据交互，对网络的延迟、抖动、丢包、带宽稳定性提出极致要求。任何细微的网络问题，都会在大规模并行场景中指数级放大，最终拉长训练周期、浪费巨额算力成本。但长期以来，国内智算集群仅能选择进口IB或以太网RoCE两条路线，但就目前看来，二者均无法同时满足高性能、低成本、高稳定、自主可控的产业化需求。

进口InfiniBand技术成熟、性能领先，但在国内规模化落地过程中，垄断带来的成本问题与供应链风险愈发突出。成本层面，进口400G IB网卡单价高达数千美元，800G光模块、高速DAC线缆价格翻倍增长，一套万卡集群的网络硬件投入动辄上亿元，大幅抬高智算基建门槛。供应链层面，高端IB设备被纳入出口管制清单，供货周期普遍拉长至3至6个月，断供风险持续存在。同时海外厂商长期采用软硬件捆绑销售模式，采购高端GPU必须配套采购其网络设备，企业丧失自主选型与议价能力，国产算力集群建设高度依赖海外供应链。

RoCE方案凭借硬件采购成本仅为进口IB一半的优势，成为国内中小规模集群的主流选择，适配千卡以下实验训练、常规推理等轻量化场景。但该方案属于以太网补丁式改造，先天架构缺陷无法通过软件调优根治，一旦集群规模突破千卡、迈向万卡级别，各类性能问题会集中爆发。对于持续数十天的大模型预训练任务，一次故障回滚、重启训练带来的算力损耗与时间成本，足以抹平RoCE的硬件价格优势。除此之外，RoCE运维难度极高，没有通用适配参数，需要运维团队根据模型类型、流量特征、集群规模持续迭代水线阈值、拥塞控制、队列调度等参数，高度依赖资深专家经验。

- 02 -

国产IB批量商用落地：全栈自研打破性能成本不可能三角

针对行业长期存在的高性能必高价、低成本不稳定、自研方案缺性能的行业痛点，中科曙光历经三年核心技术攻坚，推出scaleFabric 400G原生无损RDMA高速网络。目前该产品已实现稳定批量出货，完成大规模商用交付，实现从底层112G PAM4 SerDes IP、交换芯片、高速网卡，到驱动程序、全网管理软件的全栈自研，彻底摆脱海外技术依赖，在国内率先实现国际级性能、RoCE级成本、全链路自主可控的三重突破，彻底打破高速网络行业的不可能三角。

我们先来看技术架构层面，scaleFabric对标国际主流NDR技术标准，采用先进ADC-DSP架构，针对性解决超高速长距传输的信号衰减、噪声干扰、信号失真等核心难题。

在信号优化方面，自研电感峰化补偿技术搭配FFE/DFE联合均衡算法，有效补偿PCB链路、高速线缆带来的高频信号损耗，保障跨节点、长距离传输的信号完整性。

在抗干扰方面，搭载反射补偿与噪声白化DSP算法，精准抵消链路阻抗不匹配产生的信号反射，将不规则有色噪声均匀化处理，大幅降低系统误码率，适配机房复杂电磁环境与布线工况。

在稳定性保障方面，通过高性能LDO电源净化设计，过滤电源纹波与电压波动，为高速信号处理、时钟系统提供稳定供电，从硬件底层筑牢传输稳定性。相较于RoCE的被动流控机制，scaleFabric沿用原生IB信用流控机制，传输前校验接收端缓冲区资源，先确认后发送，从根源杜绝丢包与缓冲区溢出问题，无需依赖PFC调控，彻底规避大规模集群的PFC风暴风险。最终实现260纳秒交换机转发时延、0.9微秒端到端通信时延，核心性能全面对标国际一线产品。

再来看看实地应用的表现，目前scaleFabric已在国家超算互联网郑州核心节点深度部署，支撑三套万卡级超算集群稳定运行。依托极简自研架构优势，整套3万卡规模集群从设备上电、组网调试到业务全线开通，仅耗时36小时，相较于RoCE集群数周的调优周期，部署效率提升十倍以上，大幅缩短大型智算集群建设周期。

截至目前，该商用节点已稳定运行超10个月，累计承载十万级AI训练、超算仿真作业，全程无网络故障、无训练中断、无大规模算力闲置，完全适配7×24小时不间断高强度算力调度需求。

在集群扩展能力上，scaleFabric突破传统IB规模上限，单子网可支持11.4万卡集群扩展，是传统进口IB的2.33倍，可无缝适配未来十万卡级超大规模智算集群迭代升级。同时产品端口密度较行业主流提升25%，单芯片支持80个400G端口或40个800G端口，高集成度有效减少交换机、光模块、高速线缆用量，精简组网架构，降低硬件堆叠带来的运维压力与能耗损耗。

批量出货带来的规模化效应，彻底重构了行业高速网络的成本体系。相较于同规格进口IB设备，scaleFabric整体组网成本降低30%以上，硬件建设成本与国产高端RoCE方案完全持平，彻底改写了国产高速网络高价小众的固有认知。

- 03 -

规模化商用价值：性能、稳定性、自主可控全方位升级

scaleFabric批量交付落地，不只是单一产品的商业化落地，更是国产高端高速网络产业的里程碑突破。长期以来，国内万卡级高端智算网络被海外厂商垄断，国产方案始终无法兼顾性能、稳定性与安全性。scaleFabric的规模化应用，彻底填补国产原生无损RDMA网络的技术空白，从性能表现、运行稳定性、供应链安全三大维度，解决制约国产AI算力规模化发展的核心瓶颈。

在性能层面，完美适配高端算力场景极致需求。大模型预训练、气象仿真、流体力学、AI for Science等高端场景，对网络延迟一致性、带宽稳定性、传输精度要求极高，微小的网络波动都会直接影响模型收敛速度与仿真结果精度。scaleFabric依托原生RDMA架构，无需CPU内核调度介入，实现硬件级直接内存传输，延迟更低、抖动更小。在大规模All-Reduce高频通信场景中，能够有效缩短梯度同步耗时，加速模型迭代收敛。实测数据显示，同等GPU配置与训练任务下，scaleFabric集群的训练吞吐与收敛速度较RoCE集群提升15%以上，长期训练累积的效率优势显著，可有效缩短训练周期、降低算力能耗成本。

在稳定性层面，原生架构适配超大规模长期运行。区别于RoCE后天改造的模拟无损机制，scaleFabric从协议底层规避PFC风暴、网络死锁、路由震荡等高频故障，网络稳定性不会随集群规模扩张衰减。在数万卡高并发、高负载极端工况下，性能平滑下降，不会出现RoCE式断崖式崩盘。同时搭载自研链路质量诊断与快速自愈系统，可全网实时监测链路状态、精准定位故障节点，毫秒级完成路由切换与故障修复，全程无需人工干预，实现即插即用、长期免维护，完美适配超大规模集群不间断运行需求。

在安全层面，全栈自研筑牢算力基建底座。当前高端算力设备出口管制持续收紧，算力基础设施自主可控已成为国家战略刚需。以往国产高端集群依赖进口IB设备，不仅成本高昂，更面临断供、技术封锁、生态绑定等风险。scaleFabric实现芯片IP、硬件设备、软件栈全链路国产自研，无海外核心技术依赖，稳定批量供货的能力，彻底打破海外垄断，摆脱卡脖子困境。同时产品深度适配国产CPU、国产GPU、国产加速卡等全品类自研算力硬件，全面兼容国产算力生态，为东数西算、超算互联网等国家级算力工程提供安全可控、可迭代的高速网络底座。

在生态层面，极低迁移门槛助力行业普及。行业对国产自研产品的核心顾虑集中在兼容性差、迁移成本高、生态不完善。scaleFabric完全兼容国际标准IB协议，PyTorch、TensorFlow、NCCL、OpenMPI等主流AI框架与通信库无需代码修改即可无缝迁移，原有业务、模型、运维习惯完全复用，大幅降低替换成本。同时中科曙光联合科大讯飞、中兴通讯等数十家产业链企业，依托光合组织成立高速网络专项工作组，持续推进国产高速网络标准制定、场景适配与技术迭代，构建完整国产化产业生态，推动国产IB从可用向好用、规模化可用升级。

- 04 -

行业选型逻辑重构：国产IB成为万卡集群最优解

scaleFabric的成熟商用与批量落地，彻底重构了国内智算集群的网络选型逻辑。过去行业只能在“高价稳定的进口IB”和“低价不稳的RoCE”之间被动取舍，二元对立的选型困境长期制约国内算力基建高质量发展。如今国产IB的技术成熟与规模化落地，打破了固有矛盾，形成了适配不同集群规模、不同业务场景的科学化选型体系，实现性能、成本、稳定性、安全性的全方位平衡。

从细分场景来看，100卡以下小型实验、推理集群，业务并发压力小、网络故障风险低，RoCE的低成本优势依然适用，可作为优先选型。100至500卡中型混合业务集群，可采用“前端RoCE+后端国产IB”的混合组网模式，兼顾前端业务的兼容性与后端核心训练的高稳定、低时延需求。

对于500卡以上大型集群，尤其是万卡、十万卡级大模型训练、高性能计算核心场景，国产IB已是行业唯一最优解。此类场景对网络无损传输、超低时延、长期稳定性存在刚性需求，RoCE的架构缺陷会被无限放大，无法支撑长期稳定训练；进口IB则存在高昂成本与供应链安全隐患。而scaleFabric凭借持平RoCE的成本、对标国际的性能、自主可控的供应链与成熟的商用落地经验，成为超大规模智算集群的无可替代的组网方案。

站在行业发展视角，AI大模型规模化迭代已成必然趋势，智算集群正向十万卡级别快速演进，高速网络将取代单纯算力堆叠，成为决定集群算力释放能力的核心核心要素。中科曙光scaleFabric的批量商用，不仅实现了国产高速网络的跨越式技术突破，更重新定义了超大规模智算集群的性价比标准与选型规则。

依托全栈自研技术、十万级作业验证的稳定性、普惠化成本优势与自主安全的供应链体系，国产IB彻底改写了国内高端智算网络的市场格局。未来，随着技术持续迭代、产业生态不断完善，国产IB将成为超大规模智算集群的主流组网方案，持续赋能国产大模型研发、高端科学计算与全国一体化算力网络建设，助力国内算力产业实现高水平科技自立自强。

本主题由版主或管理员于 2026-5-26 20:01 审核通过

0 举报本楼

返回列表

版规|手机版|C114 ( 沪ICP备12002291号-1 )|联系我们 |网站地图

GMT+8, 2026-5-27 02:30 , Processed in 0.174283 second(s), 16 queries , Gzip On.

Discuz Licensed

回顶部

		自动登录	找回密码
密码			注册