距离正式上线华为云还有两个月,华为的最新 AI 芯片昇腾 950DT,已经被提前放到了显微镜下。
近日,华尔街知名半导体研究机构 SemiAnalysis 已经率先拿到样机,围绕 950 系列运行 DeepSeek V4 的推理链路进行了 Trace 级拆解。
从芯片架构、并行调度、融合算子到 MoE 通信,报告深度解构了华为这款国产高端 AI 芯片是如何压榨极致性能,承接 DeepSeek V4 的核心推理负载需求的。
(注:芯片的 Trace 分析是指利用专用软硬件记录芯片内部程序的运行轨迹、时序和性能数据)
值得注意的是,这不是一次普通的“适配”分析。SemiAnalysis 在报告中明确提到,DeepSeek V4 的部分架构,是为华为昇腾推理进行协同设计的,“in part co-designed for Huawei Ascend inference”。
也就是说,昇腾 950DT 并非在模型发布之后被动接入 DeepSeek V4,而是更早参与到了模型推理路径、硬件执行方式和软件栈优化的共同打磨中。
这也是 950 系列真正值得关注的地方。它有望成为推动 DeepSeek 从英伟达底座 转向 国产昇腾底座的关键节点,而这种迁移与转向往往是不可逆的。
过去,国产 AI 芯片一直被放在“能不能替代英伟达”的叙事下讨论。但 DeepSeek V4 把问题往前推了一步:它不是简单证明国产芯片能跑大模型,而是开始验证国产芯片能否支撑得起顶级模型的低成本、高并发推理。
|