通信人家园

 找回密码
 注册

只需一步,快速开始

短信验证,便捷登录

搜索

军衔等级:

  大校

注册:2015-1-2863
跳转到指定楼层
1#
发表于 2023-12-13 13:14:29 |只看该作者 |倒序浏览
据GLM大模型微信公众号发文,12月12日,智谱AI推出了第一个针对中文大模型,能够在多维度上细致评测模型和人类意图对齐水平的评测基准AlignBench。AlignBench构建了综合全面的分类体系,分为8个大类。为了自动化和可复现性,AlignBench使用评分模型(GPT-4,CritiqueLLM)为每个模型的回答打1-10的综合分数,代表其回答质量。智谱AI使用gpt-4-0613和CritiqueLLM分别作为评分模型对17个中文大模型进行了评测,结果显示,中文大模型相比于GPT-4,在逻辑推理能力上差距较大,在中文相关能力(尤其是中文理解类)能取得相近甚至更好的表现,顶尖开源模型对齐表现接近闭源模型,已处于同一梯队。
论文地址:arxiv.org/abs/2311.18743
项目地址:llmbench.ai/align


举报本楼

本帖有 1 个回帖,您需要登录后才能浏览 登录 | 注册
您需要登录后才可以回帖 登录 | 注册 |

手机版|C114 ( 沪ICP备12002291号-1 )|联系我们 |网站地图  

GMT+8, 2024-7-27 09:53 , Processed in 0.077814 second(s), 16 queries , Gzip On.

Copyright © 1999-2023 C114 All Rights Reserved

Discuz Licensed

回顶部