通信人家园

标题: 首届大模型象棋争霸赛：Grok 4与o3挺进决赛，DeepSeek、Kimi落败 [查看完整版帖子] [打印本页]

时间: 2025-8-7 15:02

作者: tayun 标题: 首届大模型象棋争霸赛：Grok 4与o3挺进决赛，DeepSeek、Kimi落败

8月7日消息，今日凌晨1点左右，在Google旗下Kaggle平台主办的“棋局竞技场”中，上演了一场AI国际象棋表演赛半决赛。最终，Grok 4和o3分别击败Gemini 2.5 Pro和o4-mini，晋级决赛。

这场比赛为期三天，“参赛者”是八个大型语言模型（LLM）：Grok 4（xAI）、Gemini 2.5 Pro（谷歌）、o4-mini（OpenAI）、o3（OpenAI）、Claude 4 Opus（Anthropic）、Gemini 2.5 Flash（谷歌）, 以及两位“中国选手”——DeepSeek R1（DeepSeek）和Kimi k2（月之暗面）。

比赛采用单败淘汰制，每一回合，AI有最多4次尝试机会来下出一个合法的棋步。如果它在这4次尝试中都没能走出合法的一步棋，就被判定为输掉这场比赛。规则不比算力，主要聚焦在AI对棋局的理解力与问题解决能力。

在首日的决赛中，Claude 4 Opus、DeepSeek R1、Gemini 2.5 Flash和Kimi K2未能胜出，无缘半决赛。

半决赛：Grok 4、o3胜出

在8月5日的首日四场对决中，Gemini 2.5 Pro、o4-mini、Grok 4 和 o3 均以 4-0 的战绩分别击败 Claude 4 Opus、DeepSeek R1、Gemini 2.5 Flash 和 Kimi k2，晋级半决赛。

在第二场半决赛中，OpenAI的o3首先以4-0完胜其轻量版o4-mini，展现了压倒性优势。

第二局中，o3以12步完成迷你对局，呈现类似Puzzle Rush（由Chess.com推出的在线国际象棋训练模式）的“绝杀“，精准度评分高达100。

第三局中，o3连续走出12...Bb4+（在第12回合，黑方将象移动到b4格，并造成将军）和19...e3+（黑方在第19回合将e兵推到e3并将军）两招妙棋。o4-mini在比赛中多次失误，未能跟上o3的节奏。

Grok 4与Gemini 2.5 Pro的对决是本轮焦点，常规赛以2-2平局结束，进入“阿马格顿”加赛（Armageddon tiebreak，用于快速决出胜负的特殊对局形式，通常在常规比赛平局后使用，以避免进一步延长比赛）。Grok执黑棋在55步平局中获胜（因平局胜权）。

在双方的首局比赛中，Grok频频失误，丢马、丢车后被Gemini将死。第二局双方遵循开局理论至第11步，Grok脱离理论后失误丢马，但Gemini出现“幻觉”走错棋丢后，Grok扳回一局。第三局Grok取胜领先，第四局Gemini反击追平。加赛中，Gemini错过单步绝杀机会，最终因丢后导致平局，Grok晋级。

首日比赛回顾

首日比赛结果

8月5日，八款AI模型展开的首场激烈对决，四场比赛均以“4-0“的比分尘埃落定。晋级半决赛的模型表现如下：

Gemini 2.5 Pro（谷歌）以4-0完胜Claude 4 Opus（Anthropic）。这场对决是首日唯一以“将死”为主的比赛，Claude 4 Opus因关键失误（如第十步g5导致丢子及王位暴露）落败，Gemini 2.5 Pro展现了稳健的棋盘掌控力。

o4-mini（OpenAI）以4-0击败DeepSeek R1。比赛初期双方棋风稳健，但DeepSeek R1随后频频“幻觉”，出现连续失误，o4-mini则两次成功“将死”，显示出较强的全局把握能力。

马斯克发帖评论Grok 4首日表现

Grok 4（xAI）以4-0击败了Gemini 2.5 Flash（谷歌）。Grok 4展现了出色的棋艺，捕捉到了对手未受保护的棋子。其表现甚至引发xAI创始人埃隆·马斯克（Elon Musk）在X平台上的转发和热议。

o3（OpenAI）以4-0战胜Kimi k2（Moonshot AI），Kimi k2因连续四次无法作出合法移动而连输四局。

从这次的比赛中，仍能看出大模型有不少失误之处。全球最大的国际象棋平台Chess.com撰文指出，此次赛事暴露出AI模型整体缺乏语境理解，难以执行基本战术序列等问题。

比赛仍在继续，下一场决赛将于美国东部时间8月7日13时（北京时间8月8日1时）举行，由xAI的Grok 4对阵OpenAI的o3，Gemini 2.5 Pro与o4-mini将争夺三、四名。

来源：36kr

时间: 2025-8-7 18:43

作者: 不吹不黑

哦，两胜两败

通信人家园 (https://www.txrjy.com/)