通信人家园

 找回密码
 注册

只需一步,快速开始

短信验证,便捷登录

搜索

军衔等级:

  大元帅

注册:2007-12-102082
跳转到指定楼层
1#
发表于 2025-9-12 10:54:44 |只看该作者 |倒序浏览
今天凌晨2点,阿里巴巴开源了新架构模型Qwen3-Next-80B-A3B,对混合注意力机制、高稀疏性MoE、训练方法等进行了大幅度创新,迎来了自己的DeepSeek时刻。
Qwen3-Next是一个混合专家模型总参数800亿,仅激活30亿,训练成本较Qwen3-32B暴降90%,推理效率却提升10倍,尤其是在超长文本32K以上的提示场景中。
性能方面,Qwen3-Next的指令微调模型在推理与长上下文任务中,可媲美阿里的旗舰模型Qwen3-235B;思考模型则超过了谷歌最新的Gemini-2.5-Flash思考模型,成为目前最强低能耗开源模型之一。

举报本楼

本帖有 4 个回帖,您需要登录后才能浏览 登录 | 注册
您需要登录后才可以回帖 登录 | 注册 |

版规|手机版|C114 ( 沪ICP备12002291号-1 )|联系我们 |网站地图  

GMT+8, 2025-9-12 19:10 , Processed in 0.075315 second(s), 15 queries , Gzip On.

Copyright © 1999-2025 C114 All Rights Reserved

Discuz Licensed

回顶部