通信人家园

 找回密码
 注册

只需一步,快速开始

短信验证,便捷登录

搜索

军衔等级:

  新兵

注册:2025-10-28
跳转到指定楼层
1#
发表于 2026-1-30 11:05:14 |只看该作者 |倒序浏览
2025开年,以deepseek-r1的爆火为起点,RLVR成为当年的训练主流范式;
2025年底和26开年,我们观察到大量agentic基模被训练出来,由此带来了新的训练范式-RLVE。即:构筑给模型交互的环境,例如浏览器,代码项目仓库等,通过定义有明确反馈的任务,允许模型在环境中自由探索。

举报本楼

您需要登录后才可以回帖 登录 | 注册 |

版规|手机版|C114 ( 沪ICP备12002291号-1 )|联系我们 |网站地图  

GMT+8, 2026-1-31 12:03 , Processed in 0.057545 second(s), 18 queries , Gzip On.

Copyright © 1999-2025 C114 All Rights Reserved

Discuz Licensed

回顶部