通信人家园

标题: 阿里云HPN 8.0:10万卡集群  [查看完整版帖子] [打印本页]

时间:  2025-9-25 01:20
作者: 奋斗士     标题: 阿里云HPN 8.0:10万卡集群

2025-09-24 阿里云新一代高性能网络HPN 8.0全新亮相。为应对大模型时代对海量数据传输的需求,HPN8.0采用训推一体化架构,存储网络带宽拉升至800Gbps,GPU互联网络带宽达到6.4Tbps,可支持单集群10万卡GPU高效互联,为万卡大集群提供高性能、确定性的云上基础网络,助力AI训推提效。



SIGCOMM2024 阿里云.jpg


附件: SIGCOMM2024 阿里云.jpg (2025-9-25 01:20, 326 KB) / 下载次数 0
https://www.txrjy.com/forum.php?mod=attachment&aid=NzAyOTkwfDc3MWM2NDE1fDE3NTg3OTI4Njh8MHww
时间:  2025-9-25 10:02
作者: taoxiangjun

10万卡GPU集群的互联能力,对于分布式训练的场景来说是个重大突破,尤其是确定性网络的加入。
时间:  2025-9-25 14:21
作者: Vladimir_lenin

阿里巴巴研发能力这么强,生态又好,比那个昇腾不知道强多少
时间:  2025-9-25 15:28
作者: 客家人

本帖最后由 客家人 于 2025-9-25 15:31 编辑
Vladimir_lenin 发表于 2025-9-25 14:21
阿里巴巴研发能力这么强,生态又好,比那个昇腾不知道强多少

   某腾难用死了,适配以月计算,类CUDA生态是以天计算。   某腾调试还必须菊花的人来调试,生态建设就是个笑话。

时间:  2025-9-25 17:11
作者: Vladimir_lenin

客家人 发表于 2025-9-25 15:28
某腾难用死了,适配以月计算,类CUDA生态是以天计算。   某腾调试还必须菊花的人来调试,生态建设就是 ...

同意,之前算力受限的时候,我几个邻居宁可拿硬盘去新加坡训练也不考虑X腾···
留给某腾的时间不多了,生态最重要···




通信人家园 (https://www.txrjy.com/) Powered by C114