|
国产 AI 算力迎来关键突破!华为昇腾 950PR 芯片凭借 CANN Next 软件栈的 CUDA 兼容能力,不仅俘获字节跳动、阿里巴巴等头部厂商青睐,更让国产 AI 算力在生态层面实现了从 “跟跑” 到 “可替代” 的跨越。 这款 2026 年 Q1 正式商用的芯片,搭配自研 HBM、全精度算力支持等硬核技术,正在打破英伟达长期垄断的 AI 算力格局,为国产算力全产业链崛起注入核心动力。 长期以来,英伟达在全球AI算力市场的主导地位难以撼动,核心不仅在于其芯片的算力优势,更在于其构建的CUDA软件生态壁垒,从图形渲染到科学计算,再到AI计算,CUDA已经有20年历史。 中国算力产业多年来一直试图突破这一困局,即便不断优化芯片架构、升级内置功能,成效却始终有限。国内AI大模型厂商依旧对英伟达硬件趋之若鹜,除了算力差距,更关键的是CUDA生态的“绑定效应”——开发者长期基于CUDA编程,若转向其他芯片,需重写大量代码,付出极高的迁移成本,这也让国产芯片难以形成规模化应用。 华为并非首次发力突破CUDA壁垒,此前自研的CANN架构虽有尝试,却未能达到理想效果。而此次昇腾950PR的核心思路,不再是“另起炉灶”,而是直击痛点:成为可直接替代英伟达芯片的训练与推理算力方案,让开发者无需大幅调整,就能无缝切换。 据路透社消息,多位知情人士透露,国内科技企业计划大规模采用昇腾950PR,核心原因正是其对英伟达CUDA软件系统的兼容性大幅提升,响应速度也更具优势。 昇腾950PR能实现CUDA兼容的关键,在于华为CANN Next软件栈的重磅升级。华为昇腾新一代硬件架构新增SIMT编程能力,可支持纯SIMT或SIMD/SIMT混合编程,同时新增支持MXFP4/MXFP8类型,并进一步增强核数和算力。 与以往简单的翻译适配层不同,CANN Next新增了单指令多线程(SIMT)编程模型,集成了线程块、线程束、内核启动等类CUDA功能,相当于打造了一个近乎直接替代CUDA接口的方案——它将CUDA视作编程标准,同时结合昇腾芯片的特性做了专项优化,实现了软硬件协同设计的可扩展性。 正如业内人士所言:“下一代昇腾平台将搭载类CUDA编程模型。”这意味着,开发者在使用昇腾950PR时,编程体验与使用英伟达芯片几乎无差异,但实际运行性能却经过华为自研芯片的深度调校,更贴合国内AI大模型厂商的实际需求。 通俗来讲,华为的思路不是“取代CUDA”,而是“适配并超越”——让开发者不用改变编程习惯,就能享受到昇腾芯片的优化性能,这也是昇腾950PR相比前代产品吸引力暴增的核心原因。 除了核心的CUDA兼容能力,昇腾950PR的硬件参数也为其赢得了更多信任。技术参数方面,昇腾950PR支持FP8在内的多种低精度数据格式,其中FP8算力达800 TFLOPS,FP4算力达1.56 PFLOPS,能够高效满足AI训练与推理的核心需求;芯片互联带宽达到424 GB/s,大幅提升数据传输效率。 更值得关注的是,该芯片搭载了华为首款自研高带宽内存HiBL 1.0,容量达112 GB,带宽 1.4 TB/s。这一自研HBM技术的落地,彻底打破了华为在芯片量产上的产能瓶颈,也让昇腾950PR摆脱了对外部供应链的依赖,为大规模交付提供了保障。 去年9月,华为副董事长、轮值董事长徐直军在华为全联接大会2025上首次介绍了昇腾950系列芯片,并官宣了昇腾950等系列芯片的发布时间。 对于国内智算厂商而言,昇腾950PR的出现,无疑是“及时雨”。长期以来,国内厂商采购英伟达H200等芯片,不仅要承担高昂的成本,还要面对繁琐的监管限制,不少企业只能选择海外租赁算力,既增加了成本,也存在数据安全隐患。 随着国内算力国产化需求的日益迫切,最近很热门的智能体OpenClaw ,其 Token 消耗随对话轮数增加而呈现指数级增长的趋势,在算力需求大幅增加的情况下国产芯片的崛起已是必然趋势。此前中国联通、工商银行的采购大单就已显示,国产处理器的市场份额正在快速提升,预计到2028年,中国服务器CPU的国产化率将达到85%。而华为昇腾950PR的突破,更是为国产AI算力芯片的发展注入了强心剂。 从自研架构到兼容生态,从打破产能瓶颈到获得大厂认可,华为昇腾950PR的每一步突破,都在推动国产算力摆脱对海外芯片的依赖。或许,英伟达的垄断护城河,正在被这款中国芯片慢慢撬动,而中国AI算力的自主时代,也将由此加速到来。
|