通信人家园

标题: 阿里DeepSeek开源新架构模型：推理快10倍、成本暴降90% [查看完整版帖子] [打印本页]

时间: 2025-9-12 10:54

作者: coffee198375 标题: 阿里DeepSeek开源新架构模型：推理快10倍、成本暴降90%

今天凌晨2点，阿里巴巴开源了新架构模型Qwen3-Next-80B-A3B，对混合注意力机制、高稀疏性MoE、训练方法等进行了大幅度创新，迎来了自己的DeepSeek时刻。

Qwen3-Next是一个混合专家模型总参数800亿，仅激活30亿，训练成本较Qwen3-32B暴降90%，推理效率却提升10倍，尤其是在超长文本32K以上的提示场景中。

性能方面，Qwen3-Next的指令微调模型在推理与长上下文任务中，可媲美阿里的旗舰模型Qwen3-235B；思考模型则超过了谷歌最新的Gemini-2.5-Flash思考模型，成为目前最强低能耗开源模型之一。

时间: 2025-9-12 10:54

作者: coffee198375

这算王炸？。。。

时间: 2025-9-12 11:19

作者: sinpcer

阿里这次开源的新模型确实厉害，推理速度快这么多还省成本，对开发者很友好。

时间: 2025-9-12 14:27

作者: 客家人

就连盘古都做的稀巴烂，套壳千问。

时间: 2025-9-12 16:02

作者: 不吹不黑

降本增效了

时间: 2025-9-12 22:43

作者: SOHU2021

盘古咋办再重新套个壳？

时间: 2025-9-12 23:09

作者: 客家人

SOHU2021 发表于 2025-9-12 22:43
盘古咋办再重新套个壳？

盘古可以割下国资和央企韭菜，被忽悠了也不敢吭气

时间: 2025-9-13 00:03

作者: shuijiao

最后都能干成白菜价

时间: 2025-9-13 02:21

作者: coffee198375

客家人发表于 2025-9-12 23:09
盘古可以割下国资和央企韭菜，被忽悠了也不敢吭气

客总中专学历可比国资和央企厉害多了。。。。

时间: 2025-9-13 02:22

作者: coffee198375

客家人发表于 2025-9-12 14:27
就连盘古都做的稀巴烂，套壳千问。

客总还用过盘古？妥妥的菊粉呀。。。。

时间: 2025-9-13 02:22

作者: coffee198375

SOHU2021 发表于 2025-9-12 22:43
盘古咋办再重新套个壳？

市场决定一切。。。。

时间: 2025-9-13 09:25

作者: 客家人

coffee198375 发表于 2025-9-13 02:22
市场决定一切。。。。

事实上是放弃了盘古

时间: 2025-9-14 00:23

作者: coffee198375

客家人发表于 2025-9-13 09:25
事实上是放弃了盘古

事实上用得挺好啵，怎么办客总。。。。

通信人家园 (https://www.txrjy.com/)