通信人家园

标题: DeepSeek暗示国产芯片有望大规模使用 [查看完整版帖子] [打印本页]

时间: 2025-8-25 11:05

作者: coffee198375 标题: DeepSeek暗示国产芯片有望大规模使用

近日，DeepSeek宣布其新一代模型DeepSeek-V3.1采用了UE8M0 FP8 Scale参数精度，并明确指出该精度标准是针对即将发布的下一代国产芯片设计。这一消息迅速在资本市场引发强烈反应，寒武纪等芯片类上市企业股价集体拉升。

不过，在近两日举办的2025算力大会上，据《科创板日报》记者的现场采访和观察来看，大家在聚焦国产算力时，DeepSeek的FP8精度标准虽被讨论，但业内人士的情绪显然没有资本市场那么高亢。技术派更关注FP8在模型训练、推理及生态标准化上的实际价值与挑战。

▍FP8是什么，有哪些提升？

在AI训练与推理过程中，为提升计算效率，数值精度的降低是一个常见的技术路径。

摩尔线程AI Infra总监陈志向《科创板日报》记者称，过去，大模型训练推理普遍使用FP32（32位浮点数），随后逐步过渡到FP16（16位浮点数）混合精度，以减少存储和通信开销，FP8则进一步将数据宽度压缩至8位。

“FP8最直接的优势是算力效率翻倍，另一个好处是降低训练和推理过程中网络带宽的通信量。”陈志称，比如原本传输一个FP32数值需4字节，现在仅需FP8仅需要1字节，虽然网络物理带宽本身未必扩大，但单位时间内可传输信息是增加的，同时也让存储要求降低。这意味着在相同功耗下，AI芯片可训练更大的模型或缩短训练时间。

不过，FP8也不是万能的。

在2025算力大会现场，另一名不愿具名的国产芯片厂商从业人员告诉《科创板日报》记者，用类似FP8低精度训练推理虽然快，但也容易因数值范围太小导致计算出错。而且，不同计算对精度要求不同，像矩阵乘法这类操作对精度不敏感，可以用较低的精度（如FP8）计算；而像累加或某些函数则需要较高精度。因此，业内通常采用“混合精度训练”，根据计算类型动态选择不同的精度，兼顾效率与准确。

▍Deepseek能否推动新标准

DeepSeek-V3.1使用UE8M0 FP8 Scale 的参数精度，被视为国产AI芯片即将迈入新阶段的信号。受此刺激，寒武纪等芯片类上市公司股价大幅上涨，但产业界人士态度更为审慎。

在业内看来，DeepSeek此举无疑给了国内算力厂商的机会，FP8代表了算力优化的正确方向，大模型训练推理不只是堆砌硬件，但它也并非“灵丹妙药”，更需要关注的是实际落地效果。此外DeepSeek的这一动作，后续是否会成为大模型训练与推理的新标准。

在陈志看来，大模型对精度的容忍度越来越高，从FP32到FP16，再到FP8，是整个行业逐步验证过的路径。DeepSeek这次验证了FP8在大规模模型上的可行性，未来在FP8这一标准乃至更高精度上去做研究或者做训练也是一个很重要的方向。

当然，这一趋势也意味着，国产算力生态需要同步升级，包括芯片、框架、算力平台到应用层的闭环适配。

陈志表示，精度标准一旦变化，上下游厂商也需要联动优化。摩尔线程已提前布局FP8研究，既是技术储备，也是为了在生态调整中占据主动。

他进一步说到，大模型训练推理的核心瓶颈不仅是算力规模，还包括能耗、稳定性和集群利用，“国内万卡规模集群已有部署，但还要向大智算集群演进，解决效率与容错问题，确保集群可靠性。简单‘堆卡’并不能完全满足需求，提高单卡效率与集群调度优化同样关键”。

时间: 2025-8-25 11:05

作者: coffee198375

芯片领域的独立性越来越强。。。。

时间: 2025-8-25 12:02

作者: 为别人打工的人

时间: 2025-8-25 12:34

作者: 伤心小镇

中美AI竞争正式拉开帷幕

时间: 2025-8-25 12:46

作者: flyao123

FP8确实是个进步，但别太乐观，精度降低带来的误差问题在实际应用中可能更棘手。

时间: 2025-8-25 12:50

作者: hwwdx

用国产芯片，客总表示有话要说

时间: 2025-8-25 13:39

作者: szlanjack

以前一突破就搞倾销的老套路现在估计不顶用了，你既然搞假摔，我们就判定你真摔，在国内裁判还是向着自己的，都是吃亏总结的经验。

时间: 2025-8-25 14:27

作者: laozhu

大模型训练推理的核心瓶颈不仅是算力规模，还包括能耗、稳定性和集群利用

时间: 2025-8-25 16:12

作者: ziyanji2007

szlanjack 发表于 2025-8-25 13:39
以前一突破就搞倾销的老套路现在估计不顶用了，你既然搞假摔，我们就判定你真摔，在国内裁判还是向着自己的 ...

主要是自己争气，也能做出来差不多的。以前的差距实在太大了

时间: 2025-8-25 16:32

作者: 客家人

这次寒武纪和摩尔线程进步巨大，恭喜国产GPU支棱起来。

时间: 2025-8-26 01:33

作者: 奋斗士

英伟达几年前就用这个精度进行了weight的乘法计算，
Blackwell也已经支持了UE8MO，
这只是一个降成本的方向，

英伟达火爆的核心并不是因为这类功能。。。

时间: 2025-8-26 10:22

作者: 客家人

市场传言，字节下了300亿订单给寒武纪。
就连中国移动这种铁杆关系的，都下了17亿订单给类CUDA生态。
看来某司的算力拉胯或者说是不实用不是乱说的。
盘古大模型又被内部人举报，套壳，清洗水印...............

时间: 2025-8-26 17:06

作者: coffee198375

ziyanji2007 发表于 2025-8-25 16:12
主要是自己争气，也能做出来差不多的。以前的差距实在太大了

第一个工业国的底气。。。。

时间: 2025-8-26 17:07

作者: coffee198375

客家人发表于 2025-8-26 10:22
市场传言，字节下了300亿订单给寒武纪。
就连中国移动这种铁杆关系的，都下了17亿订单给类CUDA生态。 ...

客总野鸭榜传言吧。。。。

通信人家园 (https://www.txrjy.com/)