通信人家园

标题: HPC网络技术  [查看完整版帖子] [打印本页]

时间:  2025-11-24 19:36
作者: ffld1906     标题: HPC网络技术

传统数据中心网络的瓶颈为什么传统数据中心的网络不适合智算中心的使用场景。主要有3个方面的因素:

带宽传统IDC主要是“南北向”流量,即客户端(位于数据中心外)与服务器之间的通信。服务器之间的“东西向”流量相对较少,通常发生在数据库和Web应用服务器之间。单台服务器的网络接口通常为1G/10G,少数为25G/40G。聚合带宽需求虽然大,但单个数据流的要求不高。

而智算中心要求的完全是“东西向”流量,一次AI训练任务(如大语言模型)会同时运行在成千上万个GPU上。这些GPU需要持续地、同步地交换数据(例如梯度、激活值),每秒数据交换量可达 TB级



通信协议传统数据中心使用的 TCP/IP 协议堆栈,延迟过高,不满足智算中心的速率要求



智算中心采用 RDMA(Remote Direct Memory Access)



网络架构传统IDC网络:三层架构(接入–汇聚–核心)



智算中心网络:扁平化 Spine–Leaf / Fat-Tree 架构



总结:传统IDC网络相当于城市交通网络,有高速路有小路,通过系统和规则确保各种车辆(数据)的有效传输。而高性能网络相当于赛车场,要求每辆车快速无延迟的完成圈数比赛。



时间:  2025-11-24 21:52
作者: operation186






通信人家园 (https://www.txrjy.com/) Powered by C114