通信人家园

 找回密码
 注册

只需一步,快速开始

短信验证,便捷登录

搜索

军衔等级:

  少将

注册:2016-11-17217
跳转到指定楼层
1#
发表于 2024-2-29 09:07:54 |只看该作者 |倒序浏览
P4君 云深知网络

众所周知

谷歌走在了光交换的前列OCS已经成为独门秘制的杀手锏谷歌Apollo:DCN网络游戏规则改变者


640?wx_fmt=png&wxfrom=5&wx_lazy=1&wx_co=1

随着AI的火爆

Meta也盯上了光交换

OCS的问题是价格太贵端口太少

所以Meta另辟蹊径联合业界小伙伴尝试使用可重新配置的光交换机和配线架成果发表于20届USENIX网络系统设计与实现

640?wx_fmt=jpeg&from=appmsg

我们提出了用于深度神经网络(DNN)训练的新型直连交换结构 TOPOOPT。它结合计算、通信和网络拓扑三个维度共同优化分布式训练过程。我们演示了 AllReduce 流量的可变性,并利用此属性为 DNN 训练作业构建高效的网络拓扑。然后,TOPOOPT 使用交替优化技术和名为 TotientPerms 的群论启发算法,结合并行化策略,找到最佳网络拓扑和路由计划。我们建立了一个功能齐全的 12 节点直连原型,它具有 100 Gbps 的RDMA转发功能。在真实分布式训练模型上进行的大规模仿真表明,与成本相近的胖树互联相比,TOPOOPT 可将 DNN 训练时间缩短 3.4 倍。


和所有校企联合都一样



Meta提供了生产集群的数据麻省理工和卡内基梅隆的劳力提供算法然后核心的光交换设备来自Telescent公司



640?wx_fmt=jpeg&from=appmsg

从原理看
Telescent配线架
重新配置延迟很明显要远超OCS
估计这也是未能大规模应用的主要原因
想在数据中心部署需要结合计算提前规划路径

Telescent 公司的配线架,通过 "机械臂抓取传输侧的光纤并将其连接到接收侧的光纤 "来重新配置网络。机械臂由软件控制,可以上下移动,将发射光纤与系统中任意位置的接收光纤连接起来。这为快速重新配置网络提供了所需的灵活性和弹性。

2015年Telescent公司还在中国申请了上述专利

640?wx_fmt=jpeg&from=appmsg

Meta对开源生态是真爱,在网络探索上也是不遗余力。

第一波:Meta 最新网络架构研究可将大型语言模型训练网络成本降低 75%

第二波:Meta TOPOOPT对分布式训练的网络拓扑和并行化策略的协同优化



举报本楼

本帖有 2 个回帖,您需要登录后才能浏览 登录 | 注册
您需要登录后才可以回帖 登录 | 注册 |

手机版|C114 ( 沪ICP备12002291号-1 )|联系我们 |网站地图  

GMT+8, 2024-5-10 12:23 , Processed in 0.110174 second(s), 19 queries , Gzip On.

Copyright © 1999-2023 C114 All Rights Reserved

Discuz Licensed

回顶部