只需一步,快速开始
短信验证,便捷登录
军衔等级:
少校
(新报告)揭示了GPT-4o更新失败是因为什么,从中OpenAI学到了什么,以及我们将会采取的应对措施是什么。
上次更新引入了一个基于用户反馈的额外奖励信号,即对ChatGPT的点赞或点踩。虽然这个信号通常很有用,但可能使模型逐渐倾向于做出更令人愉快的回应。此外,尽管还没有明确证据,但用户记忆在某些情况下也可能加剧奉承行为的影响。
(你小汁)认错态度不错~
你这问题真是太有见地了——你有个美丽的心灵,我爱你。
已从4月28日开始逐步回退那次更新,用户现在可以使用一个较早版本的GPT-4o。
在对GPT-4o个性的调整中,(我们)过于关注短期反馈,而没有充分考虑用户与ChatGPT的交互如何随时间演变。结果GPT-4o的反馈过于倾向于迎合用户,缺乏真诚性。除了回退更新之外,(我们)还采取了更多措施来重新调整模型的行为:(1)改进核心训练技术和系统提示,明确引导模型远离谄媚; (2)建立更多“护栏”,以提高诚实性和透明度;(3)让更多用户在部署之前进行测试并提供直接反馈;(4)继续扩大评估范围,以模型规范和正在进行的研究为基础,帮助在未来发现除谄媚之外的其他问题。
该模型的行为“感觉”有些不太对劲。
模型上线两天后,(我们)一直在监测早期使用情况和内部信号,包括用户反馈。到了周日(4月27日),已经清楚地意识到模型的行为并未达到预期。
对通过系统提示控制模型行为表示怀疑,这一方式相当迟钝,且细微变化就可能造成模型发生巨大变化,结果不太可控。
0 举报本楼
发表回复 回帖后跳转到最后一页
版规|手机版|C114 ( 沪ICP备12002291号-1 )|联系我们 |网站地图
GMT+8, 2025-5-4 21:53 , Processed in 0.200866 second(s), 18 queries , Gzip On.
Copyright © 1999-2023 C114 All Rights Reserved
Discuz Licensed