通信人家园

标题: 谷歌推出开源框架，要给AI大模型的跑分“立规矩” [查看完整版帖子] [打印本页]

时间: 2025-5-29 11:08

作者: tayun 标题: 谷歌推出开源框架，要给AI大模型的跑分“立规矩”

“不服跑个分”，曾经是风靡手机圈的一句话，只不过随着用户越来越注重产品的综合体验，“唯分数论”已经逐渐被手机行业边缘化。可贯彻着万物皆可跑分的原则，AI大模型也成为了“不服跑个分”新的受众。

只不过相比于智能手机、PC，AI大模型跑分如今还属于是“百家争鸣”的状态。

其中既有清华大学的C-Eval、上海交通大学的CMMLU、伯克利的大模型竞技场（Chatbot Arena）等知名学府推出的榜单，也有民间高手自建的MMLU，甚至于做投资的红杉中国也搞出了自己的AI基准测试工具xbench。

有鉴于此，谷歌也坐不住了。

01

日前爆料称，谷歌方面计划推出开源框架LMEval，为大语言模型和多模态模型提供标准化的评测工具。基于LMEval框架，研究人员和开发者只需设置一次基准，就能展开标准化的评测流程，可以大幅简化评测工作，从而节省时间和资源。

具体来说，谷歌的LMEval支持旨在简化LLM访问和管理的开源项目LiteLLM，并确保测试能够横跨Azure、AWS、HuggingFace、Cohere、Ollama等主要平台。此外，据称LMEval不仅支持文本评测，还涵盖了图像和代码等当下的热门领域，并能识别大模型采用的“规避策略”，即故意给出模糊回答、以避免生成有风险的内容。

除了测试AI大模型的性能，作为业界巨头，谷歌还为LMEval引入了Giskard安全评分，以展示其规避有害内容的表现，百分比越高则代表安全性越强。同时为了打消开发者的顾虑，谷歌方面强调测试结果会存储在加密的SQLit数据库中，确保数据本地化、且不会被搜索引擎抓取。

02

可是谷歌旗下如今是有Gemini模型的，他们再做一个LMEval真的不是既当裁判员，又当运动员吗？

其实谷歌也是不得已而为之，毕竟当下AI大模型的基准测试可谓是群魔乱舞。比如，Meta最新的LIama 4模型之所以能成为大模型竞技场排名第一的开源模型，靠的是为大模型竞技场提供特殊版本。

众所周知，AI大模型的跑分其实是以做题为核心，即在规定的时间内答对基准测试榜单提出的问题，正确率越高、用时越短，模型的能力就越强。所以为了提高跑分成绩，AI大模型就好似高三的学生一样，不断地在各个榜单的题库里刷题。可问题在于，AI大模型的学习能力和运行效率要远胜过高三的学生，所以随着题库纷纷被刷爆，一个基准测试的有效时间就会急剧缩短。

比如在过去两年间，包含了上至数论、代数、几何等高级数学问题的GSM8k、MATH数学基准测试中，AI大模型的正确率动辄就可以达到80%。但问题在于，为了让AI大模型在数学测试中表现更好，就拿题库里的真题来训练，这样并不会增强AI的泛化能力，只是可以在基准测试中占到便宜，从而让自家的模型有更强的传播价值。

以至于OpenAI的开发者调侃，我们总是在开发新的训练算法和模型来刷榜，而第三方又创造出更难的榜单，之后再重复这个循环。微软CEO萨蒂亚·纳德拉更是曾经在播客节目中吐槽到，“我们自称取得了一些AGI里程碑，这只是无意义的基准作弊（benchmark hacking）。”

03

所以当下AI业界有一个无法回避的难题，那就是想要真实、且客观地反映AI的能力正变得越来越困难，业界亟待构建一个评价体更加科学、长效和如实反映AI客观能力的体系。然而遗憾的是，一如PC厂商能针对鲁大师能进行专项调优、手机厂商针对DxOMark进行特调一样，科学、长效和真实几乎是不可能的三角。

现在AI行业的解决方案是“去中心化”，即推出尽可能多元化的基准测试，来让AI大模型的“刷题”效率下降。可去中心化也是有代价的，毕竟不同榜单使用的API、数据格式和基准设置不同，这就使得大模型的开发者想要完整地展现模型的能力，需要花费大量的时间和精力。所以谷歌推出的LMEval虽然并非是一个直接可用的榜单，而是一套标准化的评测流程。

简单来说，谷歌这次是要给AI大模型的跑分制定一套标准，只要使用LMEval，无论是测试AI大模型的文本、视频、数学，还是代码等能力，就都不需要再切换API、对接不同的测试集。

来源：36kr

时间: 2025-5-29 11:50

作者: 为别人打工的人

时间: 2025-5-29 16:26

作者: 不吹不黑

这样可以？

通信人家园 (https://www.txrjy.com/)