Llama3 405B 采用RoCE技术组网,设备是Arista的7800和OCP标准的Minipack2 机架交换机。Llama系列中较小规模模型是基于英伟达 Quantum2 InfiniBand 进行训练。RoCE 和 InfiniBand 集群中 GPU 之间都是 400Gbps 互连。尽管这些集群在底层网络技术方面存在根本差异,但通过我们的调整,它们可以为这些大型训练工作任务提供相同的性能。因为是我们亲手打造的设计,下面我们将详细介绍我们的RoCE网络:
• 网络拓扑结构。我们基于 RoCE 的 AI 集群由 24K 个 GPU 组成,通过三层 Clos 网络连接。在底层,每个机架容纳 16 个 GPU,分布在两台服务器上,并通过单台 Minipack2 架顶(ToR)交换机连接。在中间层,192 个这样的机架通过集群交换机连接,形成一个上下对等带宽的 3,072 个 GPU 的 Pod,确保不存在oversubscription。在顶层,同一数据中心大楼内的八个这样的 Pod 通过聚合交换机连接,形成一个 24K 个 GPU 的集群。然而,聚合层的网络连接不是上下对等,oversubscription为 1:7 。我们的模型并行方法(见第 3.3.2 节)和训练作业调度程序都基于网络拓扑结构进行优化,目的是尽量减少跨 Pod 的网络通信。
• 负载均衡。LLM 训练会产生庞大的网络流,使用传统方法(如ECMP路由)难以在所有可用网络路径上实现负载均衡。为应对这一挑战,我们采用了两种技术。首先,我们的集合库在两个 GPU 之间创建了 16 个网络流,而不仅仅是一个,从而减少了每个流的流量,并为负载均衡提供了更多的流。其次,我们的增强型 ECMP(E-ECMP)协议通过对数据包的 RoCE 头部中的其他字段进行哈希,有效地在不同网络路径上平衡这 16 个流。
• 拥塞控制。我们在Spine层中使用具有大缓冲的交换机来容纳集合通信模式引起的瞬态拥塞和缓冲。这种设置有助于限制在训练中常见的由慢服务器导致的持续拥塞和网络反压的影响。最后,通过 E-ECMP 实现更好的负载均衡显著降低了拥塞的可能性。通过这些优化,我们成功运行了一个 24K的GPU 集群,无需传统的拥塞控制方法比如DCQCN。
附件: 640?wx_fmt=jpeg&from=appmsg (2024-7-25 09:19, 121.05 KB) / 下载次数 0
附件: 640?wx_fmt=other&from=appmsg (2024-7-25 09:19, 100.1 KB) / 下载次数 0
附件: 640?wx_fmt=jpeg&from=appmsg (2024-7-25 09:19, 38.49 KB) / 下载次数 0
附件: 640?wx_fmt=jpeg&from=appmsg (2024-7-25 09:19, 60.54 KB) / 下载次数 0
附件: 640?wx_fmt=png&from=appmsg (2024-7-25 09:19, 409.87 KB) / 下载次数 0| 通信人家园 (https://www.txrjy.com/) | Powered by C114 |