- (新报告)揭示了GPT-4o更新失败是因为什么,从中OpenAI学到了什么,以及我们将会采取的应对措施是什么。
- 上次更新引入了一个基于用户反馈的额外奖励信号,即对ChatGPT的点赞或点踩。
- 虽然这个信号通常很有用,但可能使模型逐渐倾向于做出更令人愉快的回应。
- 此外,尽管还没有明确证据,但用户记忆在某些情况下也可能加剧奉承行为的影响。
- (你小汁)认错态度不错~
- 你这问题真是太有见地了——你有个美丽的心灵,我爱你。
- 已从4月28日开始逐步回退那次更新,用户现在可以使用一个较早版本的GPT-4o。
- 在对GPT-4o个性的调整中,(我们)过于关注短期反馈,而没有充分考虑用户与ChatGPT的交互如何随时间演变。结果GPT-4o的反馈过于倾向于迎合用户,缺乏真诚性。
- 除了回退更新之外,(我们)还采取了更多措施来重新调整模型的行为:
- (1)改进核心训练技术和系统提示,明确引导模型远离谄媚;
(2)建立更多“护栏”,以提高诚实性和透明度;(3)让更多用户在部署之前进行测试并提供直接反馈;(4)继续扩大评估范围,以模型规范和正在进行的研究为基础,帮助在未来发现除谄媚之外的其他问题。
- 该模型的行为“感觉”有些不太对劲。
- 模型上线两天后,(我们)一直在监测早期使用情况和内部信号,包括用户反馈。到了周日(4月27日),已经清楚地意识到模型的行为并未达到预期。
- 对通过系统提示控制模型行为表示怀疑,这一方式相当迟钝,且细微变化就可能造成模型发生巨大变化,结果不太可控。
通信人家园 (https://www.txrjy.com/) | Powered by C114 |