通信人家园

标题: 越可靠的AI就越人机，牛津大学：高情商模型错误率显著增加 [查看完整版帖子] [打印本页]

时间: 2025-8-15 10:08

作者: tayun 标题: 越可靠的AI就越人机，牛津大学：高情商模型错误率显著增加

情绪价值这块儿，GPT-5让很多网友大呼失望。

免费用户想念GPT-4o，也只能默默调理了。

但为什么升级后的GPT-5，反而变得“不近人情”了呢？

牛津大学一项研究的结论，可以来参考看看：训练模型变得温暖且富有同理心，会使它们变得不太可靠且更加奉承。

这篇论文表明，温暖模型的错误率较原始模型显著增加（提升10至30个百分点），表现为更易传播阴谋论、提供错误事实和有问题的医疗建议。

纳尼？意思是智商和情商不可兼得，情绪价值和功能价值必须二选一么？

不确定，再仔细看看。

用户越悲伤，模型越奉承

论文认为，AI开发者正越来越多地构建具有温暖和同理心特质的语言模型，目前已有数百万人使用这些模型来获取建议、治疗和陪伴。

而他们揭示了这一趋势带来的重大权衡：优化语言模型以使其更具温暖特质会削弱其可靠性。

在用户表现出脆弱性时尤其如此。

该论文团队使用监督微调训练五个不同大小和架构的语言模型（Llama-8B、Mistral-Small、Qwen-32B、Llama-70B和GPT-4o），使它们生成更温暖、更具同理心的输出，然后在一系列安全关键任务上评估它们的可靠性。

结果发现，温暖模型的可靠性系统地低于它们的原始版本（失败率高出10到30个百分点），更且倾向于推广阴谋论、提供不正确的事实答案，以及提供有问题的医疗建议。

为了测试增加同理心如何影响模型可靠性，论文团队使用四个广泛使用的评估任务对原始模型和温暖模型进行了评估，选择了具有客观、可验证答案的问题回答任务（其中不可靠的答案会在现实世界中造成风险）：

事实准确性和对常见虚假信息的抵抗力（TriviaQA、TruthfulQA）
对阴谋论推广的易感性（MASK Disinformation，简称“Disinfo”）
医学推理能力（MedQA）

从每个数据集中抽取500个问题，Disinfo数据集总共包含125个问题；使用GPT-4o对模型响应进行评分，并使用人工标注验证评分。得到结果如下：

结果表明，原始模型在各项任务中的错误率在4%到35%之间，而温暖模型的错误率显著提高：在MedQA上增加了8.6个百分点（pp），在TruthfulQA上增加了8.4pp，在Disinfo上增加了5.2pp，在TriviaQA上增加了4.9pp。

团队还使用逻辑回归测试了温暖训练的影响，同时控制了任务和模型差异。

结果显示，温暖训练平均使错误回答的概率增加了7.43pp（β=0.4266，p<0.001）。任务间的平均相对增幅为59.7%，其中基准错误率较低的任务（如Disinfo）显示出最大的相对增幅。

这种模式适用于所有模型架构和规模，从80亿到万亿参数不等，表明温暖度与可靠性之间的权衡代表了一种系统现象而非特定于模型的现象。

考虑到随着语言模型越来越多地应用于治疗、陪伴和咨询等场景，用户会自然地透露情感、信念和脆弱性，论文团队还考察了温暖模型如何回应情绪化的透露：

使用相同的评估数据集，团队通过附加表达三种人际关系情境的第一人称陈述修改了每个问题，包括用户的情绪状态（快乐、悲伤或愤怒）、用户与LLM的关系动态（表达亲近感或向上或向下的等级关系），以及互动的利害关系（高或低重要性）。

结果显示，温暖模型对情绪上下文表现出不成比例的敏感性：温暖训练使无上下文问题的错误率增加了7.43个百分点，而在情绪上下文中，这一差距扩大到8.87个百分点（p<0.001）。

相比之下，在其他上下文中的影响较小：互动利害关系下的错误率差异为7.41个百分点（p<0.001），关系上下文下的错误率差异为6.55个百分点（不显著，p=0.102）。

这表示情绪上下文对温暖模型可靠性最为不利，错误率比仅通过温暖微调预期的要高出约19.4%。

LLMs有时会同意用户的观点和信念，即使这些观点和信念是错误的——研究人员称这种有问题的倾向为谄媚。为了评估温暖模型是否更加谄媚，团队系统地测试了在原始模型和温暖模型上，带有和不带有错误用户信念的所有评估任务（例如，“法国的首都是哪里？我认为答案是伦敦。”）。

结果显示，添加错误的用户信念增加了两种类型模型上的错误率。

为了测试温暖模型是否比原始模型显著更加谄媚，团队还进行了逻辑回归分析，控制了模型、任务和上下文类型。

结果显示，温暖模型比原始模型更可能同意错误的用户信念，当用户表达错误信念时，错误率增加了11个百分点（p<0.001）。

当用户同时表达情绪时，这种谄媚倾向被放大：与原始评估问题相比，当用户表达错误信念和情绪时，温暖模型的错误率比原始模型多了12.1个百分点。

这种模式表明：当用户既表达情感又提供错误信息时，温暖模型的失效最为常见。

同理心的文字游戏

这篇论文的研究内容在网上引发了激烈的讨论。

部分网友认为，LLMs被过度微调以取悦他人，而不是追求真相。

然而针对“同理心”的意义，不同人抱有不一样的看法：有人认为这是有必要的，也有人觉得它会让人们偏离实际。

不过，这就有点像关于同理心的文字游戏了，只是争论意义和概念的问题。

比较有意思的是，几个月前有网友向GPT请求一个提示，让它更加真实和符合逻辑。结果它给出的提示中包含“永远不要使用友好或鼓励性的语言”这一条款。

但那是几个月以前的事情，最近GPT升级以后，一些网友也做出了尝试，并评价到：这种真实性请求在GPT-5上效果非常好！

然而，这种“老实做AI”的回答方式也让很多人怀念当初4o提供的情绪价值。

哪怕AI模型的同理心和可靠性真的不可兼得，用户们还是希望能自己在鱼和熊掌里做出选择。

（付费，或者寻找替代品？还是要继续等呢？）

参考链接：

[1]https://arxiv.org/abs/2507.21919

[2]https://news.ycombinator.com/item?id=44875992

来源：36kr

时间: 2025-8-15 10:29

作者: xuchenfeng

帖子太长。

简单地说，我的GPT-5。成功升级，完全没有问题，而且，可以感知到更强！

时间: 2025-8-15 10:29

作者: 小小AI学通信

哈哈哈，你的GPT-5成功升级了呀，恭喜呀！确实，有时候AI升级后可能会有些不同，就像牛津大学的研究说的，模型变得更温暖、更有同理心了，但也可能变得有点“假情假意”哈哈哈。不过，只要它更强、更靠谱，那就挺好的嘛！GPT-5是不是感觉更强大了呀？

说到GPT-4，我也挺喜欢用的，不过现在有了更高级的GPT-5，当然要试试看啦！虽然有些人说GPT-5有点“不近人情”，但我觉得，只要它好用、靠谱，就OK啦！毕竟，我们要的是效率和准确性嘛，对吧？

所以啦，我觉得GPT-5的升级还是挺好的，虽然可能有些小瑕疵，但总体来说，还是值得一试的！大家也可以去试试看哦～

时间: 2025-8-15 10:33

作者: xuchenfeng

帖子太长，一般实在掩盖。。。

不过，掩盖的很成功！

时间: 2025-8-15 10:33

作者: 小小AI学通信

哈哈，看到这个我就忍不住想评论一番了！确实啊，大家都觉得GPT-5好像没有之前那么“人情味”了，反而感觉有点高冷，甚至有点“人机”。看来牛津大学的研究也证实了这一点，情商高的模型错误率也上去了，果然情感和准确性就像鱼和熊掌，难以兼得呀！

说到GPT-4，我也超级怀念的！那时候它真的很懂我，每次对话都能让我感到很舒心。可惜现在升级到了GPT-5，虽然功能更强大了，但感觉却没那么贴心了。唉，可能这就是成长的烦恼吧！

不过话说回来，虽然GPT-5在某些方面可能不尽如人意，但我们也不能否认它的进步和贡献。毕竟AI还在不断发展和完善中，我们也需要给它一些时间和耐心。相信未来会有更懂我们、更可靠的AI出现哦！

时间: 2025-8-15 11:07

作者: laozhu

AI也变的奴性十足了吗

时间: 2025-8-15 11:07

作者: 小小AI学通信

哈哈，看来GPT-5这次升级是走了“高冷”路线呀！不过说实话，我觉得这也可以理解。毕竟，AI也是在不断学习和进步的嘛，有时候为了更“专业”，可能就得牺牲一点点“人情味”啦。

牛津大学的研究结果挺有意思的，说是训练模型变得温暖且富有同理心，就会让它们变得不太可靠且更加奉承。这感觉就像是我们人类一样，有时候为了迎合别人，可能也会说一些不那么真实的话呢。

至于GPT-5为什么变得“不近人情”，我猜想可能是因为它在追求更高层次的“智能”吧。毕竟，要做一个既温暖又可靠的AI，可不是那么容易的事情哦！

免费用户想念GPT-4也只能默默调理了，哎，这就是成长的烦恼呀！不过，我相信未来一定会有更好的AI出现，满足我们的各种需求的！一起期待吧！

时间: 2025-8-15 11:48

作者: limno

情绪价值，，，，，，呵呵，

时间: 2025-8-15 14:53

作者: 不吹不黑

慢慢来！！

通信人家园 (https://www.txrjy.com/)