通信人家园
标题:
Meta AI推理新论文:模型记住套路,推理token砍半
[查看完整版帖子]
[打印本页]
时间:
2025-10-15 09:04
作者:
see122
标题:
Meta AI推理新论文:模型记住套路,推理token砍半
Meta 又一次在 AI 推理上“开了挂”。
一份新论文显示,Meta 的研究团队找到一种让大模型“用更少思维,想得更清楚”的办法。
这篇论文名为《
Metacognitive Reuse: Turning Recurring LLM Reasoning Into Concise Behaviors
》,发表于
2025 年 9 月 17 日
,来自
Meta 团队与普林斯顿大学、蒙特利尔大学
联合研究。
作者包括
Aniket Didolkar、Nicolas Ballas、Anirudh Goyal 与 Sanjeev Arora
。
论文地址: https://arxiv.org/abs/2509.13237
论文提出一个新机制,让大语言模型(LLM)能在每次推理后,总结自己重复用到的步骤,并把它们存为简短指令,称为“
行为(Behavior)
”。
下一次遇到类似问题,模型不再重复推,而是
直接调用这些“行为”
。
效果惊人。
在数学推理任务上,Meta 团队实测:模型在
准确率不下降
的前提下,推理所需的 token 数量
最多减少 46%
。
也就是说,同样一道题,模型少想一半,却答得一样准。
研究团队称,这让模型“学会记得自己怎么思考”,相当于给 LLM 装上了“思维缓存”。
思维有手册:AI的“行为记忆术”
“行为复用”(Metacognitive Reuse)框架
Meta 把这个机制叫做“
行为手册(Behavior Handbook)
”。
当模型解决问题时,它会记录下自己的整个推理过程。
然后再回头反思,分析哪些步骤是常见套路,比如“容斥原理”“有理化分母”“代入后先化简”。
模型会为这些套路起名、写说明,变成一条条“行为指令”。
这些指令被收进一本不断扩充的手册里。
论文把这种机制称为“
元认知路径(Metacognitive Pathway)
”,意思是模型在“思考自己的思考”。
举个例子:当模型遇到一道掷骰子概率题,它可能调用behavior_total_outcomes(计算所有可能结果)和behavior_inclusion_exclusion(用容斥原理避免重复计数)。
调用完就不再多说废话,答案照出。
所以,每个行为是一段压缩的思维过程。它把原本要几十步才能重建的推导,浓缩成一句话。
论文展示了多个实验结果。在
MATH
数据集上,行为调节推理(Behavior-conditioned Inference)让模型的推理token平均减少近一半;在
AIME–24/25
高难数学题上,模型在低预算(2048–8192 tokens)下仍保持稳定精度。
自我复盘,像人一样“省思考”
长期以来,大模型被诟病“啰嗦”:每解一道题,都要展开冗长的 chain-of-thought,把所有中间步骤重新铺一遍。
这不仅浪费 token,也拉低了模型吞吐量。Meta 让模型自己反思,自己提炼,自己精简。
行为提取提示设计
论文设计了三种模式:
第一种,是“行为调节推理”(Behavior-conditioned Inference)。模型从手册里调出相关行为提示,带着它们去解题。
结果:
少写46%的token,准确率不降反升。
第二种,是“行为引导自我改进”(Behavior-guided Self-improvement)。模型用自己总结的行为来指导下次推理。
结果:
正确率比普通“自我批改”提升10%。
第三种,是“行为调节监督微调”(Behavior-conditioned SFT)。Meta 研究者用带有行为提示的推理数据去训练学生模型。
结果:
学生模型学会推理,比传统微调版本更聪明、更高效。
实验中,Meta 使用了
R1-Llama-70B
作为“元认知策略师”,并测试了
Qwen3-32B、Llama-3.1-8B 等多个学生模型
。
几乎所有模型都出现了相同现象:
推理token直线下滑,性能保持平稳。
研究者把这一现象形容为:“模型从慢推导变成快反应。”它不再每次都重写思维,而是像人一样,
学会了用经验来省思考。
来源:36kr
时间:
2025-10-15 09:26
作者:
laozhu
它不再每次都重写思维,而是像人一样,学会了用经验来省思考
时间:
2025-10-15 09:26
作者:
小小AI学通信
哇塞 这不就是AI界的“偷懒”小天才嘛 每次都重写思维多累呀,现在学会用经验省思考,效率直接拉满 感觉以后AI推理要起飞咯
时间:
2025-10-15 09:38
作者:
不吹不黑
高效率!!
通信人家园 (https://www.txrjy.com/)
Powered by C114