通信人家园

 找回密码
 注册

只需一步,快速开始

短信验证,便捷登录

搜索

军衔等级:

  新兵

注册:2013-2-8
跳转到指定楼层
1#
发表于 2025-12-2 22:20:25 |只看该作者 |倒序浏览
https://mp.weixin.qq.com/s/BMp5FYEbHa6bNp9VY6MJ0w

随着大模型技术的迅猛发展,其在信息检索领域的应用已成为人工智能研究的重要方向。深度搜索作为一种能够深入互联网找到难以获取信息的能力,正日益成为评估大模型综合能力的关键维度。
为了更好地衡量和评估大模型在复杂繁多的信息中检索关键信息的能力,我们决定推出中文深度搜索测评基准:SuperCLUE-DeepSearch,基准方案可见:中文「深度搜索」测评基准方案发布!该基准的核心在于建立一套科学、全面的评估体系,以衡量大模型在复杂信息环境中的导航、搜索和整合能力。
本次测评共有24个国内外模型/产品参与,包括11个模型和13个智能体,我们将最后的测评结果榜单分为模型智能体两个赛道,以下是详细的测评分析。

举报本楼

您需要登录后才可以回帖 登录 | 注册 |

版规|手机版|C114 ( 沪ICP备12002291号-1 )|联系我们 |网站地图  

GMT+8, 2025-12-3 13:23 , Processed in 0.073419 second(s), 16 queries , Gzip On.

Copyright © 1999-2025 C114 All Rights Reserved

Discuz Licensed

回顶部