通信人家园
标题:
HPC网络技术
[查看完整版帖子]
[打印本页]
时间:
2025-11-24 19:36
作者:
ffld1906
标题:
HPC网络技术
传统数据中心网络的瓶颈
为什么传统数据中心的网络不适合智算中心的使用场景。主要有3个方面的因素:
带宽
传统IDC主要是“南北向”流量
,即客户端(位于数据中心外)与服务器之间的通信。服务器之间的“东西向”流量相对较少,通常发生在数据库和Web应用服务器之间。单台服务器的网络接口通常为1G/10G,少数为25G/40G。聚合带宽需求虽然大,但单个数据流的要求不高。
而智算中心要求的完全是“东西向”流量
,一次AI训练任务(如大语言模型)会同时运行在成千上万个GPU上。这些GPU需要持续地、同步地交换数据(例如梯度、激活值),每秒数据交换量可达 TB级
通信协议
传统数据中心使用的
TCP/IP 协议堆栈,延迟过高,不满足智算中心的速率要求
TCP/IP 设计之初为通用互联网传输,
强调可靠性与跨地域互联
;
需要操作系统内核参与
,每次通信都要拷贝数据、分包、确认、重传;
延迟高、CPU占用大
,不适合每秒百万次的小包通信,延迟达到100us。
智算中心采用
RDMA(Remote Direct Memory Access)
GPU 或 CPU 之间可直接访问远端显存/内存,绕过内核与CPU;
延迟从毫秒级降到微秒级,吞吐提升数倍;
主流方案包括 InfiniBand(NVIDIA/Mellanox) 与 RoCE v2(基于以太网)
网络架构
传统IDC网络:三层架构(接入–汇聚–核心)
上行链路 oversubscription rate(过订比)常在 4:1~20:1;
强调南北向流量(客户端 ↔ 服务器)
智算中心网络:
扁平化 Spine–Leaf / Fat-Tree 架构
要保证任意两台计算节点之间的无阻塞通信;
过订比需接近 1:1;
采用大量高速端口(400G、800G),并行多路径传输(ECMP)。
总结:传统IDC网络相当于城市交通网络,有高速路有小路,通过系统和规则确保各种车辆(数据)的有效传输。而高性能网络相当于赛车场,要求每辆车快速无延迟的完成圈数比赛。
时间:
2025-11-24 21:52
作者:
operation186
通信人家园 (https://www.txrjy.com/)
Powered by C114