通信人家园
标题: “雷军的AI秘密武器”罗福莉首秀:详解小米AGI之路 [查看完整版帖子] [打印本页]
时间: 2025-12-17 13:33
作者: cyberelf
标题: “雷军的AI秘密武器”罗福莉首秀:详解小米AGI之路
文|郭晓静
编辑|徐青阳
12月17日,2025小米“人车家全生态合作伙伴大会”举办。在这次大会上,小米MiMo团队负责人罗福莉完成了首秀演讲。作为前DeepSeek核心成员,罗福莉自从加入小米,就被视为小米AI研发走向“正规军化”和“极客化”的里程碑。
市场曾期待她能带来像DeepSeek那样颠覆性的“小而美”模型,而罗福莉身上AI时代的极客特质,也许能与小米初创时期的极客基因完美相融,产生新的化学反应。
罗福莉的首秀略显紧张,但不负众望,她带来了一个高效的模型MiMo-V2-Flash,也抛出了新的AGI梦想。
在她看来,现在的模型大多只是“完美的语言外壳,没有锚定现实世界的物理模型”;“真正的智能是从交互中活出来的”,通往AGI的必经之路,不是打造一个程序,而是“推演整个世界的运作逻辑,打造一个虚拟宇宙”。
这次首秀,罗福莉确实带来了鲜明的“DeepSeek 基因”,比如MoE架构、MTP技术和对极致效率的追求。
此次开源的MiMo-V2-Flash模型,它具备三个核心特点:
高效推理:虽然总参高达309B,但通过MoE架构仅激活15B,结合被低估的MTP(多令牌预测)技术,生成速度达到150 tokens/秒。这带来约2.5倍加速,主要为了解决车机、助手等端侧交互对延迟的敏感。
创新的长文本架构:设计上追求“简单优雅”,采用Hybrid SWA机制,锁定128 tokens的“神奇窗口”。这不仅支持256K长上下文,固定了KV缓存以降低硬件压力,还在代码生成上刷新了SOTA。
极高的性价比:落地层面非常务实,后训练阶段采用MOPD技术,用极低的计算量(不到标准流程1/50)复刻教师模型性能,意在降低大规模部署的成本。
这场首秀被安排在“人车家全生态”大会上,意义耐人寻味。罗福莉在小米的职责很明确:主导大模型研发,通过高效推理与智能体技术,推动AI从“语言交互”跨越到“物理世界”,赋能全生态。
但客观来看,端侧AI智能、赋能全生态的理想还在路上,现在的硬件依然难以支撑这样一个已经“极致效率”的模型。
以当前最高端的旗舰手机为例,端侧模型的舒适区依然停留在3B到7B参数之间。MiMo-V2-Flash的15B激活参数,对移动设备而言依然是“房间里的大象”。
所谓的“高效推理”,更多是指在云端数据中心实现了高吞吐量,对于用户手中的终端,这依然是一个重度依赖网络的“云端模型”。
虽然有惊喜,但是此次小米并没有打破端侧AI的算力天花板,对于期待“AI手机”变革的用户而言,还需要继续等待。
但今天的罗福莉,确实在给小米,讲了一个可围绕“人车家生态的”、新的AGI故事。
以下为演讲实录(为优化阅读体验,做了二次编辑、删减):
01 从生物演变看 AI 发展路径
今天我想带大家换一个视角,从 10 亿年生物进化的长河中,重新去审视我们正在经历的这一场 AI 变革。
如果我们回到生命进化的历程,会发现自然界在构建智能这座金字塔时,遵循着非常严密的逻辑:在 6 亿年前,生命首先学会了控制身体与环境互动;紧接着进化出了多巴胺系统,通过强化学习进一步提升生存能力;在 2 亿年前,哺乳动物的大脑首次具备了在行动前先在大脑里模拟未来的能力;最终我们发现,人类才登上了智能的塔尖,掌握了语言这一抽象的符号系统。
所以我们能看到,生物演化的规律是先具备对物理世界的感知和生存体验,最后才诞生了语言。但大家都能发现,到现在为止,大模型的发展路径其实跟生物进化路径是不同步的,甚至说是一种倒叙,或者说是一种跳跃。
生物是先从行动进化到思考,再进化到语言;但是大模型是先学会了语言,再去补齐它的思考能力,最后再去补齐对物理世界的模拟以及具身感知。
为什么大模型智能的产生首先是在语言领域?因为语言不仅仅是一种符号的排列组合,更是人类思维以及对于世界的一种描述。在文本领域的投射,本质上是一种有损压缩。当大模型通过 Next Token Prediction(下一词预测)这种范式在海量文本里进行学习,试图把 Loss(损失函数)降到最低的时候,我们发现它不仅仅是在拟合一个统计规律,而是在压缩人类数十亿年间关于这个世界的认知同构。
这种压缩的过程,在我们看来就是一种智能。所以,大模型通过语言的爆发,通过 Scaling(扩展)算力和数据,从而理解了人类的思维和对世界的理解。但其实它并不真正像人类一样具备对整个物理世界的感知。严谨来说,它应该是成功地解码了人类思维在文本空间的一个投影。大家都能看到,这其实是一种自顶向下的捷径,因为它是在学习一种智能的结果,来倒推智能产生的过程。
02 MiMo-V2-Flash 的诞生,解决三大核心问题
不管怎么说,语言包含了人类对世界极致的压缩,是智慧的结晶,也是高阶智能体之间高效协作的工具。因此,小米从语言出发,构建了全新一代面向 Agent(智能体)的基座模型——MiMo-V2-Flash。
MiMo-V2-Flash 在研发之初,主要围绕着三个非常关键的问题展开:
第一,我们认为当代的智能体必须要有一个高效的沟通语言,即代码能力和工具调用能力。
第二,目前智能体之间的沟通带宽非常低,如何加速带宽?这需要一个推理效率极高的模型结构。
第三,Scaling 的范式已经逐步从预训练(Pre-train)转向后训练(Post-train),我们如何激发后训练的潜能?这就需要一个稳定的范式,以便在强化学习(RL)上投入更多的 Compute(算力)。
在这三个问题的驱动下,我们看到了 MiMo-V2-Flash 超强的基座潜能。虽然它的总参数在我看来非常小——总参数 309B,激活参数只有 15B,我甚至都不愿意称它为“大”模型——但它的代码能力和 Agent 能力在世界级公开公正的评估榜单上,已经进入了全球开源模型 Top 1-2 的行列。
基本上,大部分评估基准已经超过或者与 DeepSeek-V3、Kimi、Qwen 等模型相当,而这些模型的总参数量通常是 MiMo-V2-Flash 的两倍到三倍。
03 性能与成本的平衡,挑战推理不可能三角
这个图展示了全球相同水位大模型在价格和速度上的比较:横轴是推理价格(从大到小),纵轴是推理速度(从小到大)。我们能看到 MiMo 在右上角,代表了低成本、高速度。
举两个模型进行对比: 比如 DeepSeek-V3.2,MiMo-V2-Flash 比它更便宜一点,但推理速度大概是 V3.2 的三倍左右。
再比如 Gemini 2.5 Pro,虽然综合性能相当,且推理速度差不多,但 Gemini 2.5 Pro 的推理成本比 MiMo-V2-Flash 贵了整整 20 倍。
04 架构创新与 MTP 加速
那么我们是怎么做到这一切的呢?核心关键在于围绕“极致推理效率”重新设计模型结构,主要依靠两个创新。
第一个是 Hybrid Attention(混合注意力)结构。我们采用了 Hybrid Sliding Window Attention(混合滑动窗口注意力)和 Full Attention(全局注意力),比例大概是 5:1。
为什么选 Sliding Window Attention?因为它看起来非常简单,只关注邻域的 128 个 Token。经过大量实验验证,我们发现一些看似复杂的 Linear Attention(线性注意力)结构,在兼顾长短文推理和知识检索的综合性能上,其实并不如简单的 Sliding Window Attention。更重要的是,它的 KV Cache 是固定的,能非常好地适配当代主流的 Infra(基础设施)推理框架。
图:全局注意力(GA)和滑动窗口注意力(SWA)的1:5混合结构
第二个是 挖掘 MTP(Multi-Token Prediction,多令牌预测)的潜力。MTP 一开始被提出是用于做推理加速的,后来 DeepSeek 将其用于提升基座模型能力。我们在训练时加入了一层 MTP 层以提升基座潜能,并且在微调时加入了更多层的 MTP,用少量算力就提升了 MTP 层的接受率。
最终推理时,我们使用了三层 MTP 进行加速并行 Token 验证。在实际场景中,这种方式能做到 2.2 到 2.6 倍的推理加速。
在社区关于三层 MTP 的情况下,我们来看模型输出吞吐:在单机吞吐能做到 5,000~15,000 Tokens/秒的基础上,单请求吞吐也能做到 150~155 Tokens/秒。使用 MTP 相比不使用,整体速度提升了 2 到 3 倍。
05 训练范式革新:MOPD 与自进化
除了关注预训练结构的高效性,我们还在思考如何扩展强化学习训练的 Compute。强化学习训练通常非常不稳定,因此我们提出了 MOPD(Multi-Teacher On-Policy Distillation,多教师在线策略蒸馏) 范式。
它的核心在于 On-Policy,依赖稠密的 Token Level Reward(令牌级奖励)进行监督学习。通常 Post-train 范式会通过 SFT 和 RL 拿到各领域专家模型。MOPD 则会让 Student(学生)模型基于自身概率分布 Roll out(生成)一些序列,然后用专家模型对这些序列进行打分,提供非常稠密的监督信号。
我们发现这种学习效率极高,通过简短的几十步就能将各领域专家的能力快速蒸馏到 Student 模型上。
此外,我们还有一个意外发现:当 Student 很快超越 Teacher 时,我们正在尝试将 Teacher 替换成更强的 Student,继续自我迭代提升,这是一个正在进行中的工作。
06 迈向物理世界:从语言模拟到真实交互
MiMo-V2 已经初步具备在语言空间模拟世界的能力。比如,我们可以通过 HTML 让它写一个操作系统,很多功能都是可实现的;或者写一个 HTML 模拟太阳系;甚至做一个画圣诞树并产生交互的小 Demo。
MiMo-V2-Flash 已经在昨天发布,我们开源了所有模型权重,同步了技术报告细节,并提供了 API 供开发者接入 Web Coding IDE。我们的体验 Web 也已上线,大家可以扫描试用。
虽然现在的大模型能聊天、能写代码,但我相信大家还是不放心把身边复杂的任务交给它。我认为真正的下一代智能体系统,不应该只是一个语言模拟器,而是需要跟世界共存。
下一代智能体必须具备两个潜能: 第一,从“回答问题”变成“完成任务”。 这不仅需要记忆、推理、规划能力,更需要一个 Omni(全模态)的感知能力。做一个统一的动态系统非常必要,这是理解世界的基础。有了这个基础,模型才能无缝嵌入到像眼镜这样的智能终端,融入我们的生活流。
第二,构建物理模型。 回到开头的话题,现有大模型本质上是用算力的“暴力美学”攻克了顶层的语言和第二层的强化学习,但跳过了中间对世界的感知和模拟,以及底层的实体交互。这就是为什么大模型能做奥数、模仿莎士比亚,却不懂重力等物理法则,经常产生具身幻觉。
因此,AI 进化的下一个起点,一定要有一个可以跟真实环境交互的物理模型。我们要打造的本质上不是一个程序,而是一个具备物理一致性、时空连贯性的虚拟宇宙。
这意味着 AI 能力的本质跨越——不仅仅是看懂画面,而是理解背后的物理规律;不仅仅是处理文本,而是推演世界的运作逻辑。真正的智能绝对不是在文本里读出来的,而是在交互里“活”出来的。
附件: 640?wx_fmt=png&from=appmsg#imgIndex=0 (2025-12-17 13:33, 292.93 KB) / 下载次数 0
https://www.txrjy.com/forum.php?mod=attachment&aid=NzEwOTc3fDU0NjdlMTFlfDE3NjU5ODA5Mzl8MHww
附件: 640?wx_fmt=png&from=appmsg#imgIndex=1 (2025-12-17 13:33, 401.86 KB) / 下载次数 0
https://www.txrjy.com/forum.php?mod=attachment&aid=NzEwOTc4fDkyNDUxZDUzfDE3NjU5ODA5Mzl8MHww
附件: 640?wx_fmt=png&from=appmsg#imgIndex=2 (2025-12-17 13:33, 215.15 KB) / 下载次数 0
https://www.txrjy.com/forum.php?mod=attachment&aid=NzEwOTc5fGM0YTZhNzU3fDE3NjU5ODA5Mzl8MHww
附件: 640?wx_fmt=png&from=appmsg#imgIndex=3 (2025-12-17 13:33, 268.89 KB) / 下载次数 0
https://www.txrjy.com/forum.php?mod=attachment&aid=NzEwOTgwfGE3NDJiYTJmfDE3NjU5ODA5Mzl8MHww
附件: 640?wx_fmt=png&from=appmsg#imgIndex=4 (2025-12-17 13:33, 306.76 KB) / 下载次数 0
https://www.txrjy.com/forum.php?mod=attachment&aid=NzEwOTgxfGUzNjBiNmEyfDE3NjU5ODA5Mzl8MHww
附件: 640?wx_fmt=png&from=appmsg#imgIndex=5 (2025-12-17 13:33, 354.32 KB) / 下载次数 0
https://www.txrjy.com/forum.php?mod=attachment&aid=NzEwOTgyfDJhMWY4NzI2fDE3NjU5ODA5Mzl8MHww
附件: 640?wx_fmt=png&from=appmsg#imgIndex=6 (2025-12-17 13:33, 234.42 KB) / 下载次数 0
https://www.txrjy.com/forum.php?mod=attachment&aid=NzEwOTgzfGZkZDMyZWQ4fDE3NjU5ODA5Mzl8MHww
附件: 640?wx_fmt=png&from=appmsg#imgIndex=7 (2025-12-17 13:33, 270.38 KB) / 下载次数 0
https://www.txrjy.com/forum.php?mod=attachment&aid=NzEwOTg0fGMyZDRiMzIyfDE3NjU5ODA5Mzl8MHww
附件: 640?wx_fmt=png&from=appmsg#imgIndex=8 (2025-12-17 13:33, 213.76 KB) / 下载次数 0
https://www.txrjy.com/forum.php?mod=attachment&aid=NzEwOTg1fGU1NjdjNWYzfDE3NjU5ODA5Mzl8MHww
时间: 2025-12-17 16:22
作者: liyoo


时间: 2025-12-17 21:29
作者: xhy133


| 通信人家园 (https://www.txrjy.com/) |
Powered by C114 |