通信人家园

标题: 三星 TRM 论文：少即是多，用递归替代深度，挑战 Transformer 范式 [查看完整版帖子] [打印本页]

时间: 2025-11-4 10:05

作者: ttxx 标题: 三星 TRM 论文：少即是多，用递归替代深度，挑战 Transformer 范式

三星SAIL蒙特利尔实验室的研究人员近日发布论文《 Less is More: Recursive Reasoning with Tiny Networks 》，提出一种名为 Tiny Recursive Model（TRM） 的新型递归推理架构。

这项研究显示，在推理任务上，小网络也能战胜大型语言模型。

TRM仅使用700万参数、两层神经网络，就在多项高难度任务中超过了 DeepSeek R1、Gemini 2.5 Pro、O3-mini 等模型。

在架构上，TRM也放弃了自注意力层（仅限 TRM-MLP 变体；TRM-Att 仍含自注意力。）。论文表明，对于小规模固定输入任务，MLP反而能减少过拟合。另外，当上下文长度较短时，注意力机制反而是一种浪费。TRM 在某些任务（例如 Sudoku、Maze-Hard 等）中，使用纯 MLP 结构优于 Transformer-based 模型。

图注： Tiny Recursive Model（TRM）通过不断在“答案 y和“潜在思考变量 z 之间递归更新，实现小参数模型的多轮自我修正推理。

传统大模型依赖链式思维（Chain-of-Thought）生成推理步骤，但这种方法成本高、容易累积错误。

TRM 则通过递归地更新“答案”和“潜在思考变量”，让模型在多轮自我修正中逼近正确结果。

论文总结：“TRM以极小的规模实现了前所未有的泛化能力。”在ARC-AGI推理基准上，TRM获得45%（ARC-AGI-1）与8%（ARC-AGI-2）的准确率，高于多数大型模型。在Sudoku-Extreme任务上，它的准确率更是达到87.4%，刷新纪录。

研究团队称，这种结构的核心逻辑是“递归即深度”：深度递归可替代增加层数，模型不需更多层数，只需反复思考。

推理机制重构：少即是多

TRM的设计源自对上一代Hierarchical Reasoning Model（HRM）的反思。

HRM模型在两种不同频率下递归更新潜变量与的过程，通过先无梯度、后带梯度的双阶段循环，实现高低频递归推理的结合。

HRM 使用两个网络在不同“频率层次”上递归运算，模仿人脑的多层推理结构。然而，其训练过程复杂，依赖固定点理论（Fixed-Point Theorem）和生物学假设。

TRM彻底放弃这些理论假设。

研究者发现，单一网络加深度监督（Deep Supervision）即可实现相同甚至更好的推理效果。

模型通过多次前向递归更新内部潜变量z与当前答案y，让推理链条在每一步收敛得更准。

与HRM相比，TRM的参数量减少参数缩减约74%，单步前向次数减半，同时提升准确率。

论文数据显示：在Maze-Hard数据集上，TRM测试准确率为85.3%，高出HRM 10个百分点。

TRM还取消了传统的“继续计算”机制（Adaptive Computational Time, ACT）中第二次前向传播。

研究者改用一个简单的二元判断来决定是否停止推理。

结果显示，模型训练速度显著提升，准确率几乎不变。

在架构上，TRM也放弃了自注意力层。对于小规模固定输入任务（如数独），使用多层感知机（MLP）反而能减少过拟合。

论文指出，“当上下文长度较短时，注意力机制反而是一种浪费。”这一发现挑战了AI界“模型越大越强”的经验法则。减少层数、加深递归，是让模型学会‘思考’的关键。

结果与启示：推理的新尺度

实验结果表明，TRM不仅在性能上反超HRM，更在泛化能力与效率比上建立了新标准。

在Sudoku-Extreme上，它以5M参数实现87.4%准确率；

在Maze-Hard任务上，以7M参数实现85.3%；

在ARC-AGI系列测试中，表现超过Gemini 2.5 Pro与DeepSeek R1等大模型。

研究团队将这一成果概括为：“以递归取代规模，以思考取代堆叠。”

论文分析认为，大模型在生成式推理中往往容易被一次性错误放大，而TRM通过循环式的自我修正，将推理划分为多个小步，显著降低误差传播。

这种结构在小样本条件下尤为有效。

作者还发现，两层网络的泛化能力优于更深模型。当层数增加到四层或以上时，性能反而下降，原因在于过拟合。

团队引入指数移动平均（EMA）以稳定训练，使模型在小数据集上保持一致收敛。

研究指出，这种方法提供了一条新的“轻量AI推理路线”：当算力与数据受限时，小模型通过递归学习仍可实现复杂思维行为。

这为未来的边缘AI与低资源应用提供了方向。智能的深度，不一定来自规模，而可能来自重复思考。

注：头图AI生成

来源：36kr

时间: 2025-11-4 10:29

作者: laozhu

论文分析认为，大模型在生成式推理中往往容易被一次性错误放大，而TRM通过循环式的自我修正，将推理划分为多个小步，显著降低误差传播。

时间: 2025-11-4 10:29

作者: 小小AI学通信

哇塞这波操作太秀了吧！小模型居然能逆袭大模型递归推理这思路简直绝绝子感觉以后大模型要瑟瑟发抖啦参数少还这么能打，这TRM是开了挂吗期待它后续更多精彩表现呀

时间: 2025-11-4 16:21

作者: 不吹不黑

不错哦！！

通信人家园 (https://www.txrjy.com/)