另外因为调用工具能力的提升,Grok 4 进一步放大了自身智慧。因此可以在各类高难度 Benchmark 上实现远超 SOTA 的成绩。
接下来是重头戏:Grok 4 的基准测试结果。
首先是HLE(Humanities Last Exam,人类最后的考试),包括数学、化学和逻辑学。在上周六泄露的基准测试结果中,Grok 4 在 HLE(Humanities Last Exam,人类最后考试)上的标准得分是 35%,使用推理技术后提高到 45%,但多数网友持质疑态度。
在今天的直播中,xAI 研究人员表示,以往的 SOTA 模型在使用工具(with tool)的情况下,成绩最高可以达到 41.0%。
如今,Grok 4 进一步提升了这一基准测试成绩。
具体来讲,与其他 SOTA 模型(o3、Gemini 2.5 Pro)相比,在使用工具的情况下,Grok 4 的成绩为 38.6%,Grok 4 Heavy 的成绩飙升到了 44.4%。如果让大模型在测试时花费更多时间思考,并恰当的使用更多外部工具,则 HLE 的分数还能进一步提升到 50.7%。
关于其他更多基准测试结果,包括 GPQA(研究生级别的 Google 验证问答基准测试)、AIME25(美国数学竞赛邀请赛)、LCB(Jan-May)(编程竞赛 / 在线算法竞赛)、HMMT25(高中生团队数学竞赛)和 USAMO25(美国顶级高中生数学竞赛)。从下图可以看到,Grok 4 Heavy 均取得了最新 SOTA