查看: 3073|回复: 26

黄仁勋夸爆的华为AI超节点 [复制链接]

coffee198375

军衔等级：

大元帅

注册：2007-12-10 点赞数

2015

电梯直达

1^# 大中小

发表于 2025-6-19 11:01:46 |只看该作者 |倒序浏览

6月15日，华为联合硅基流动发布论文《在华为CloudMatrix384上提供大语言模型（Serving Large Language Models on Huawei CloudMatrix384）》。据论文报告，在DeepSeek-R1模型的评估中，应用于华为AI超级节点CloudMatrix384的昇腾910C NPU可实现赶超英伟达H800 GPU的计算效率。

CloudMatrix384是华为于2025年4月发布的AI超级节点，是其下一代AI数据中心架构CloudMatrix的首次生产级落地。CloudMatrix384集成384颗昇腾910C NPU和192个鲲鹏CPU，通过超高带宽、低延迟的统一总线（UB）网络互连，从而有效解决传统数据中心架构中常见的可扩展性和效率挑战。

基于CloudMatrix384，华为推出了CloudMatrix-Infer服务解决方案。对DeepSeek-R1模型的广泛评估表明，华为CloudMatrix-Infer的计算效率可超过英伟达H800的表现。

CloudMatrix-Infer在预填充阶段为每颗NPU提供6688tokens/s吞吐，在解码期间为每颗NPU提供1943tokens/s吞吐，同时始终保持每个输出token低于50ms的低延迟。对应的预填充阶段计算效率达4.45 tokens/s/TFLOPS，解码阶段1.29 tokens/s/TFLOPS，这超过了NVIDIA H100上的SGLang和H800上的DeepSeek等领先框架的公布效率。

这样的成绩，也印证了前不久英伟达CEO黄仁勋的判断：虽然（如任正非所说）美国芯片技术比华为领先一代，但人工智能是一个并行问题，如果每台计算机的性能不够强，那就用更多的计算机，华为可以满足中国乃至更多市场的大模型需求。

华为的CloudMatrix架构愿景从零开始重新构想AI数据中心基础设施。通过拆除传统的孤立设计，它支持通过统一的超高性能网络实现CPU、NPU、内存、NIC和其他资源的完全点对点分解和池化，从而为可扩展的AI原生数据中心奠定基础。

本主题由版主或管理员于 2025-6-19 11:03 审核通过

0 举报本楼

本帖有 26 个回帖，您需要登录后才能浏览登录 | 注册

12 下一页

返回列表

版规|手机版|C114 ( 沪ICP备12002291号-1 )|联系我们 |网站地图

GMT+8, 2025-8-8 14:42 , Processed in 0.184741 second(s), 20 queries , Gzip On.

Discuz Licensed

		自动登录	找回密码
密码			注册

黄仁勋夸爆的华为AI超节点 [复制链接]

浏览过的帖子

浏览过的版块

精彩总评