通信人家园

 找回密码
 注册

只需一步,快速开始

短信验证,便捷登录

搜索

军衔等级:

  大元帅

注册:2007-12-101957
跳转到指定楼层
1#
发表于 2025-6-19 11:01:46 |只看该作者 |倒序浏览
6月15日,华为联合硅基流动发布论文《在华为CloudMatrix384上提供大语言模型(Serving Large Language Models on Huawei CloudMatrix384)》。据论文报告,在DeepSeek-R1模型的评估中,应用于华为AI超级节点CloudMatrix384的昇腾910C NPU可实现赶超英伟达H800 GPU的计算效率。


CloudMatrix384是华为于2025年4月发布的AI超级节点,是其下一代AI数据中心架构CloudMatrix的首次生产级落地。CloudMatrix384集成384颗昇腾910C NPU和192个鲲鹏CPU,通过超高带宽、低延迟的统一总线(UB)网络互连,从而有效解决传统数据中心架构中常见的可扩展性和效率挑战。

基于CloudMatrix384,华为推出了CloudMatrix-Infer服务解决方案。对DeepSeek-R1模型的广泛评估表明,华为CloudMatrix-Infer的计算效率可超过英伟达H800的表现。


CloudMatrix-Infer在预填充阶段为每颗NPU提供6688tokens/s吞吐,在解码期间为每颗NPU提供1943tokens/s吞吐,同时始终保持每个输出token低于50ms的低延迟。对应的预填充阶段计算效率达4.45 tokens/s/TFLOPS,解码阶段1.29 tokens/s/TFLOPS,这超过了NVIDIA H100上的SGLang和H800上的DeepSeek等领先框架的公布效率。

这样的成绩,也印证了前不久英伟达CEO黄仁勋的判断:虽然(如任正非所说)美国芯片技术比华为领先一代,但人工智能是一个并行问题,如果每台计算机的性能不够强,那就用更多的计算机,华为可以满足中国乃至更多市场的大模型需求。

华为的CloudMatrix架构愿景从零开始重新构想AI数据中心基础设施。通过拆除传统的孤立设计,它支持通过统一的超高性能网络实现CPU、NPU、内存、NIC和其他资源的完全点对点分解和池化,从而为可扩展的AI原生数据中心奠定基础。








举报本楼

本帖有 13 个回帖,您需要登录后才能浏览 登录 | 注册
您需要登录后才可以回帖 登录 | 注册 |

版规|手机版|C114 ( 沪ICP备12002291号-1 )|联系我们 |网站地图  

GMT+8, 2025-6-20 19:04 , Processed in 0.164995 second(s), 19 queries , Gzip On.

Copyright © 1999-2023 C114 All Rights Reserved

Discuz Licensed

回顶部