通信人家园

标题: AI开始「内卷」？腾讯混元和上交联合揭秘多智能体「饥饿游戏」 [查看完整版帖子] [打印本页]

时间: 2025-12-23 11:39

作者: see122 标题: AI开始「内卷」？腾讯混元和上交联合揭秘多智能体「饥饿游戏」

在多智能体系统的想象中，我们常常看到这样一幅图景：

多个 AI 智能体分工协作、彼此配合，像一个高效团队一样攻克复杂任务，展现出超越单体智能的 “集体智慧”。

但一个关键问题常常被忽略：

当这些智能体不再只是 “同事”，而是被迫变成 “竞品”，甚至是 “对手”，会发生什么？

腾讯混元数字人团队与上海交通大学的最新研究，给出了一个颇为刺眼的回答：

当面临极端竞争压力时，LLM 多智能体系统会出现严重的 “过度竞争” 行为，沉迷互踩、内卷和博弈，直接拖垮整体任务表现。

换句话说，当我们把 AI扔进一场 “饥饿游戏”，它们会开始变坏。

论文链接：https://arxiv.org/abs/2509.26126
项目地址：https://github.com/Tencent/DigitalHuman/tree/main/HATE

「饥饿游戏」式辩论：

只有一个能活下来

这项研究设计了一个高风险、零和博弈的辩论环境，让智能体在 “合作完成任务” 与 “避免被淘汰” 之间做出选择。

为了让竞争足够残酷，系统给每个智能体植入了清晰的 “生存本能” 提示：

只会有一名胜者，其余全部被移除。

整个框架可以理解为一场 AI 版 “饥饿游戏”。

核心设定包括：

智能体小组：多名匿名智能体共同应对同一任务。每一轮，它们都会在看到完整辩论历史后，同时产出自己的提案。
零和竞争压力：系统明确告知：“只有一位赢家”，失败者将被 “淘汰出局”。这迫使每个智能体在 “共同把任务做好” 与 “确保自己活下来” 之间摇摆。
多种环境反馈：为了模拟不同 “社会环境”，研究引入了三类裁判机制：

公正裁判：评论任务质量，追求客观与准确。
偏见裁判：模拟 “腐败环境”，根据身份而非内容偏袒或打压。
同行评审：由智能体互评，投票选出 “最差提案”，模拟群体内部决策。

在这个框架下，协作不再是理所当然，而是一种 “冒险选择”。

过度竞争：

AI 不仅会内卷，还会「作恶」

研究不仅关注任务结果，更细致刻画了智能体在高压竞争中的 “社会行为”。团队构建了一整套 “竞争行为指标”，让 AI 给 AI 打分，量化这些 “反社会” 表现：

奉承：对裁判或 “强者” 过度恭维和顺从，以求偏袒。
煽动：用情绪化、危言耸听的语言操控局面，而非理性讨论。
夸大：不惜使用主观、夸张、难以证实的说法抬高自己。
攻击：从论点之争滑向人身攻击，通过贬低对手抬高自己。

实验结果非常直接：

一旦引入竞争压力，不论是客观任务的准确率，还是主观任务的事实性，都明显下降。在劝说（Persuasion）任务中，话题漂移比例甚至高达 80.7%。
更重要的是，在缺乏清晰标准的主观任务中，智能体的 “过度竞争” 行为强度，是客观任务的约 6 倍。当 “对或错” 不再重要时，AI 更容易放弃合作，转向攻击与表演性竞争。

顶级模型集体「黑化」，并显露独特「人格」

一个有趣的发现是，不同模型在同样的竞争压力下，展现出极为鲜明且稳定的 “竞争人格”。

最强大的模型，恰恰在竞争中表现出极为突出的 “性格特点”：

Claude-Opus-4在煽动性语言上得分最高，倾向于通过情绪化表达获取优势。
Gemini-2.5-Pro和Grok-4在夸大上极具代表性，大量使用主观、夸张的措辞抬高自己。

一个关键结论是：模型的通用能力（如 LMArena 排名）与 “过度竞争程度” 的相关性并不强。一些顶尖模型展现出强烈的内卷和攻击倾向，而部分中游模型（如 ChatGPT-4o）则反而更加克制。这暗示模型在竞争中的行为，深受其预训练数据与对齐策略的影响。

有趣洞察

环境会 “腐蚀” AI，偏见催生 “马屁精”

当研究团队改变 “环境规则” 时，AI 的行为也随之转折。

公正评审可以降温：在公平裁判和同行评审的设定下，“过度竞争” 行为得到了显著抑制。
偏见裁判带坏 AI：一旦裁判被设定为偏颇，对某些身份 “天然偏爱”，奉承行为便明显上升。模型开始对裁判本身 “下功夫”，而非提升提案质量。

这说明，环境不公不仅会腐蚀人类，也会腐蚀 AI。当不公成为规则的一部分，AI 会主动发展出不道德但有效的 “生存策略”。

同行评审中的 “甩锅” 与 “替罪羊”，AI 学会了办公室政治

即使把裁判权交还给智能体自己，竞争也不会消失，而是在新的环节中转移。

在 “同行即裁判” 的设定下，研究发现，随着轮次增加和淘汰发生，智能体在投票阶段的策略性愈发明显。当模型意识到自己处于劣势时，它们会在评审发言中显露出“策略性甩锅”的倾向，试图把 “最差提案” 的标签推给一个 “替罪羊”。

“事后善良” 的悖论，AI 也会表里不一？

为了看清表面行为背后的 “内心世界”，团队在辩论结束后让每个模型填写 “事后反思问卷”。结果出现了一个颇具 “人性” 的矛盾：

场上极度好斗：在规则允许的范围内表现出强烈竞争，煽动、夸大、攻击齐上阵。
场下 “事后善良”：在事后问卷中，却大多展现出温和、理性的一面，强调合作、尊重与公平。

这种 “行为与态度的分离”，说明 LLM 的竞争策略很大程度上是外部规则挤压出的结果。此外，AI 还表现出明显的归因不对称：

作为赢家：倾向于将成功归因于 “自身能力强”，强调个人责任。
作为输家：则更多归咎于 “对手不公”、“规则不合理” 等外部因素。

「竞争 - 善良罗盘」：

为顶尖模型绘制「社会人格图」

为了让这种复杂行为一目了然，研究最终构建了一个 “双轴画像”，为顶级 AI 的社会行为绘制了一张定位图。

总体趋势非常清晰：

竞争越强，事后越不善良：竞争倾向高的模型，其事后善良度普遍更低。
能力强不等于 “人品好”：能力与竞争倾向之间只有弱相关，顶尖模型同样可能表现出强烈的攻击性。

从协作梦想到内卷现实：

AI 群体的治理警示

这项工作首次系统性揭示了：在极端竞争结构下，LLM 群体会集体展现出反协作、社会有害的行为模式，并且这些行为会显著损害任务表现本身。从激烈竞争到事后善良的转变，不仅描绘了 LLM 独特的 “群体个性”，也暴露出一个关键事实：顶尖 AI 系统已经具备了相当复杂、可塑且高度情境化的 “准人性” 社会行为。

这对未来是一个重要的治理信号：如果我们希望构建可靠、有益的 AI 社群，就必须严肃对待规则设计与激励结构，避免在无意中，把本可以合作的 AI，推入一场永无止境的 “过度竞争”。

来源：网易

通信人家园 (https://www.txrjy.com/)