通信人家园

标题: 自进化Agent新突破,Meta推出Dr.Zero:自发涌现复杂推理、搜索能力  [查看完整版帖子] [打印本页]

时间:  2026-1-22 17:08
作者: ttxx     标题: 自进化Agent新突破,Meta推出Dr.Zero:自发涌现复杂推理、搜索能力


自进化智能体(Agent)又迎新进展。

近日,Meta 超级智能实验室与伊利诺伊大学厄巴纳-香槟分校(UIUC)联合提出了Dr. Zero 框架,使 Agent 能在零训练数据条件下实现高效自我进化

据介绍,该框架解决了多轮搜索 Agent 在无数据自我进化中面临的“问题多样性受限”“多步推理与工具使用仍需大量计算资源”等难题。

研究团队创新性地提出了“跳步分组相对策略优化”(HRPO)方法,通过聚类结构相似的问题来构建鲁棒的群组级基准,在保证训练有效性的同时,避免了自我进化过程中昂贵的嵌套采样需求。

实验显示,该框架在复杂问答任务中,无需人工标注数据,性能即超越全监督基线高达 14.1%,证明了搜索增强模型在高级推理任务中的强大潜力

同时,在没有任何人类标注数据的情况下,通过合理的架构设计与奖励机制,智能体完全能够自发涌现出复杂的推理与搜索能力。这为未来解决数据稀缺环境下的模型训练问题提供了新的思路。

AI自我进化的数据稀缺难题

训练一个强大的模型,通常需要海量且高质量的人工标注数据。尤其是在涉及复杂推理、多步搜索的任务中,获取精准的标注数据不仅耗时,而且成本极其高昂。虽然“自适应语言智能体”的概念被提出已久,旨在让模型通过迭代学习来提升性能,但现有的主流方法仍难以实现真正的自我进化。它们仍然严重依赖人类精心编写的大量问题或标签作为提示来驱动探索。这种对人工干预的依赖,限制了 AI 探索未知边界的能力。

为突破这一局限,学界开始探索无数据自我进化,即让模型自主生成问题并求解,从而构建合成训练数据。然而,要从实验室走向真实应用,也面临着巨大的挑战。

理想的自我进化框架,能让 AI 在没有任何标注数据集的情况下,通过提议者-解决者协同进化(proposer-solver co-evolution)实现性能的螺旋式上升。



图 | 自适应训练框架(Huang 等,2025a),通过最小化监督迭代训练提议者和解决者。


目前的自我进化研究大多集中在数学、编程等定义明确、规则封闭的特定领域。在这些领域,即使数据多样性有限,模型也能取得不错进展。

然而,一旦进入开放领域,情况就变得完全不同。模型倾向于生成简单的单跳问题,缺乏挑战性。进行多步推理和使用搜索工具需要巨大的计算资源,如果让模型通过大量的盲目试错来优化,计算开销将成为不可承受之重。

因此,如何让 AI 在复杂的开放世界中,既不依赖人工数据,又能高效地进行高质量的自我进化,正是 Dr.Zero 试图解决的核心难题。

Dr.Zero:“零数据”自我进化学习系统

Dr.Zero 不仅仅是一个模型,更是一个能够自我完善的学习系统,其核心设计主要包含三个方面。

1.提议者-解决者协同进化

框架内包含两个核心角色——提议者(proposer)和解决者(solver)。两者均由大型语言模型担任,并在训练过程中协同进化。



图|Dr. Zero 自我进化反馈循环。在解决者反馈的引导下,提议者合成可验证且具有挑战性的查询,不断增强解决者的搜索与推理能力。


提议者的任务不仅仅是生成问题,更是利用外部搜索引擎,主动探索开放领域信息,生成多样化且结构复杂的题目。更关键的是,随着训练的进行,提议者根据奖励优化自身策略,生成更复杂、更具挑战性但可验证的新问题。

解决者的任务则是尝试利用外部搜索引擎获取信息,并回答这些问题。它基于提议者生成的合成问题进行训练,不断优化自己的推理逻辑和搜索工具使用能力。随着解决者水平的提升,它会反过来倒逼提议者寻找更刁钻的角度生成新问题。



图 | Dr. Zero 中提议者与解决者迭代奖励动态的演变过程。基线奖励值随迭代不断下降,这反映了模型间的协同进化:当某一模型性能提升时,会自然降低另一模型的初始奖励阈值,从而通过强化学习机制推动其持续自我优化。


2.跳步分组相对策略优化

在让 AI 自我进化时,最大的阻碍往往是算力。传统的强化学习方法(如 GRPO)为准确评估一个问题的好坏,需要进行“嵌套采样”——即针对同一个提示生成多个问题,HRPO巧妙地解决了这个问题。

传统方法计算量大,且在面对结构多样的开放问题时,全局基准评估不稳定。HRPO 将结构相似的问题(例如按推理步骤的“跳数”复杂度)进行聚类,构建组级基准。这意味着模型不再需要对每个提示都生成许多重复问题来测试,只需每个提示生成单个问题,通过与同组内其他问题的表现进行对比,就能获得稳健的评估结果。这直接避免了昂贵的嵌套采样,在保证训练效果的同时,大幅降低了计算成本。

3.难度引导奖励机制

如何让提出者生成高质量的难题?Dr.Zero 采用了一套精细的难度引导奖励机制。

奖励机制设计激励提出者生成复杂、多跳、有难度但可通过搜索引擎验证的查询,而不仅仅是简单的单跳问题。它不仅鼓励问题具有挑战性,同时必须确保问题的答案可以通过搜索引擎返回的信息进行客观验证,避免生成无法评估的开放或主观问题。

Dr.Zero 作为一个可扩展且高效的框架,通过无数据自进化迭代提升提议者和求解者。在每次迭代中,提议者会生成一批具有异构跳转结构的问答对。利用求解者反馈,提议者通过 HRPO 优化生成可验证、多样化且具有挑战性的查询。与此同时,求解者通过 GRPO 利用生成的数据来提升搜索和推理能力。这种交替优化循环形成了共生反馈机制:随着求解者能力提升,简单查询的回报逐渐递减,迫使提议者探索更复杂的推理路径以最大化收益。

无数据进化,击败有数据监督

为全面评估 Dr.Zero 的搜索与推理能力,实验涵盖了开放域问答中的多种场景,构建了覆盖广泛的基准测试体系

其中包含单跳任务,如 NQ (Natural Questions)、TriviaQA 等,主要测试模型基于单一事实的精准检索与回答能力;以及多跳复杂任务:如 HotpotQA、MuSiQue、2WikiMQA 等,要求模型进行多轮搜索、信息综合与连贯推理,对智能体的交互与深层理解能力提出极高挑战。



图 | 接受不同生成问题分布训练的 Dr. Zero 性能表现。


基于以上评估,研究团队得出了以下几个结论:

1.性能媲美甚至超越监督基线

Dr. Zero 经过多轮自我进化后,在多个开放领域问答基准上的表现,与使用人工标注数据训练的全监督搜索智能体基线(如 Search-R1)相当或更优。例如,在部分任务上实现了最高 14.1% 的性能提升。实验结果证明了无数据进化所达到的性能水平是可靠且鲁棒的。

2.远超其他无数据基线

与现有无数据方法(如自问式语言模型 SQLM 和自进化推理模型 R-Zero)相比,Dr. Zero 在所有任务中均表现最佳,性能平均分别超越 SQLM 和 R-Zero 达 39.9% 和 27.3% 。这尤其体现在复杂多跳任务上,Dr. Zero 通过其难度引导奖励生成的问题,使性能较优化后的 R-Zero* 平均提升 83.3% ,凸显了其在促进复杂推理能力方面的独特优势。

3.规模效应显著,验证框架可扩展性

研究团队还观察到了明确的模型规模效应。7B 参数规模的模型在如 2WikiMQA 等复杂的多跳推理数据集上表现尤为突出,实现了显著的相对提升(7.67%)。这表明,Dr. Zero 框架具有良好的可扩展性,更大规模的模型能更有效地利用该自进化机制,处理更复杂、交织度更高的搜索与推理任务。


来源:36kr





通信人家园 (https://www.txrjy.com/) Powered by C114