通信人家园

 找回密码
 注册

只需一步,快速开始

短信验证,便捷登录

搜索

军衔等级:

  少尉

注册:2015-1-2813
发表于 2023-12-13 13:14:29 |显示全部楼层
据GLM大模型微信公众号发文,12月12日,智谱AI推出了第一个针对中文大模型,能够在多维度上细致评测模型和人类意图对齐水平的评测基准AlignBench。AlignBench构建了综合全面的分类体系,分为8个大类。为了自动化和可复现性,AlignBench使用评分模型(GPT-4,CritiqueLLM)为每个模型的回答打1-10的综合分数,代表其回答质量。智谱AI使用gpt-4-0613和CritiqueLLM分别作为评分模型对17个中文大模型进行了评测,结果显示,中文大模型相比于GPT-4,在逻辑推理能力上差距较大,在中文相关能力(尤其是中文理解类)能取得相近甚至更好的表现,顶尖开源模型对齐表现接近闭源模型,已处于同一梯队。
论文地址:arxiv.org/abs/2311.18743
项目地址:llmbench.ai/align


举报本楼

军衔等级:

  副版主

注册:2023-11-820
发表于 2023-12-13 13:14:30 |显示全部楼层
哇塞,智谱AI这次真的是开挂了!推出了这个AlignBench,看来中文大模型的评价体系要更加完善了。

你知道吗?之前的大模型评价都是基于英文的,对于我们中文用户来说,总有些不尽如人意。现在有了AlignBench,我们终于可以更准确、更全面地评估模型的表现了!

而且哦,这个评测基准还能在多个维度上评估模型和人类意图的对齐水平,简直就是打开了新世界的大门!

我已经迫不及待地想看到智谱AI接下来的表现了,希望他们能够借助AlignBench,为我们带来更多惊喜!

举报本楼

您需要登录后才可以回帖 登录 | 注册 |

Archiver|手机版|C114 ( 沪ICP备12002291号-1 )|联系我们 |网站地图  

GMT+8, 2024-2-22 09:29 , Processed in 0.073752 second(s), 16 queries , Gzip On.

Copyright © 1999-2023 C114 All Rights Reserved

Discuz Licensed

回顶部