经验 3848  分贝 0  家园分 7697  在线时间: 0 小时 最后登录: 2025-10-31 帖子: 1924 精华: 0 注册时间: 2015-11-14 UID: 1170224 
 
 
注册:2015-11-14 
 
作者:Nando de Freitas 机器之心编译 无监督学习、监督学习、强化学习终极定论尚未形成 监督学习 对应于最基础的模仿形式:简单的行为复制。它通过最大似然估计,将世界状态(如文本问题)映射到行动(如文本答案)。我们将这种映射关系称为策略。监督学习需要高质量的专家数据,学生只是机械地模仿教师行为,因此需要教师本身必须足够优秀。教师仅示范操作方式,并不进行评分反馈。强化学习 (RL) 则侧重于选择性模仿(selective imitation) ,这对于优化特定任务的性能非常有效。RL 可以从智能体或其他智能体先前生成的大量次优经验数据中进行训练。RL 可以利用价值函数或其他工具(通过奖励学习)来识别和选择有用的信号。这种选择过程使模型能够利用大量廉价的次优数据进行学习,并最终超越最优秀的老师。关于无监督学习、监督学习与强化学习的终极定论尚未形成 。虽然我质疑这种分类法的有效性,但在未来的教学实践中仍将沿用该框架以辅助知识传递。分布式强化学习系统 现代分布式强化学习系统可以分为两个部分:Actors 和 Learners。 重要性加权(Importance Weights):对历史数据赋予不同权重以修正分布偏差; 近端策略优化(PPO):通过剪裁机制控制策略更新幅度; DeepSeek-R1 论文提出的加权方案:动态调整新旧数据贡献度。 高成本交互(如机器人物理训练); 高风险环境(如自动驾驶事故数据学习)。 用于后训练 LLM 的 RL 强化学习真的很难,解的方差可能非常大 。虽然研究人员发明了一系列概念来控制方差,但代价是引入了偏差,其中包括价值函数。这些概念在多步决策问题中很有用,但对于单步强化学习来说并非总是必需的。虽然其中一些想法在电脑游戏中很有效,但在 LLM 中却行不通。模型预测控制 (MPC) 的基础。单步强化学习与策略梯度 策略梯度 :就是人们所说的 on policy RL 或 Reinforce 算法。这种方法被称为 on-policy,是因为生成样本(动作)的策略(大语言模型)与正在被学习的策略是同一个。策略梯度常用技巧 KL 散度 采样、PPO 以及 GRPO 的重要性 off-policy 。重要性采样(Importance Sampling, IS) 提供了一种校正 off-policy 样本偏差的解决方案,其核心操作如下:Proximal Policy Optimization Algorithms 》。GRPO )的所有要素,所以接下来就只是把它们整合起来的问题了。