通信人家园

标题: 阿里DeepSeek开源新架构模型:推理快10倍、成本暴降90%  [查看完整版帖子] [打印本页]

时间:  2025-9-12 10:54
作者: coffee198375     标题: 阿里DeepSeek开源新架构模型:推理快10倍、成本暴降90%

今天凌晨2点,阿里巴巴开源了新架构模型Qwen3-Next-80B-A3B,对混合注意力机制、高稀疏性MoE、训练方法等进行了大幅度创新,迎来了自己的DeepSeek时刻。
Qwen3-Next是一个混合专家模型总参数800亿,仅激活30亿,训练成本较Qwen3-32B暴降90%,推理效率却提升10倍,尤其是在超长文本32K以上的提示场景中。
性能方面,Qwen3-Next的指令微调模型在推理与长上下文任务中,可媲美阿里的旗舰模型Qwen3-235B;思考模型则超过了谷歌最新的Gemini-2.5-Flash思考模型,成为目前最强低能耗开源模型之一。


时间:  2025-9-12 10:54
作者: coffee198375

这算王炸?。。。
时间:  2025-9-12 11:19
作者: sinpcer

阿里这次开源的新模型确实厉害,推理速度快这么多还省成本,对开发者很友好。
时间:  2025-9-12 14:27
作者: 客家人

    就连盘古都做的稀巴烂,套壳千问。
时间:  2025-9-12 16:02
作者: 不吹不黑

降本增效了
时间:  2025-9-12 22:43
作者: SOHU2021

盘古咋办 再重新套个壳?
时间:  2025-9-12 23:09
作者: 客家人

SOHU2021 发表于 2025-9-12 22:43
盘古咋办 再重新套个壳?

   盘古可以割下国资和央企韭菜,被忽悠了也不敢吭气
时间:  2025-9-13 00:03
作者: shuijiao

最后 都能干成白菜价




通信人家园 (https://www.txrjy.com/) Powered by C114