只需一步,快速开始
短信验证,便捷登录
军衔等级:
上校
首个工程自动化任务评估基准DrafterBench,可用于测试大语言模型在土木工程图纸修改任务中的表现。通过模拟真实工程命令,全面考察模型的结构化数据理解、工具调用、指令跟随和批判性推理能力,研究结果发现当前主流大模型虽有一定能力,但整体水平仍不足以满足工程一线需求。
论文链接:https://arxiv.org/abs/2507.11527 代码链接:https://github.com/Eason-Li-AIS/DrafterBench 数据链接:https://huggingface.co/datasets/Eason666/DrafterBench
0 举报本楼
发表回复 回帖后跳转到最后一页
版规|手机版|C114 ( 沪ICP备12002291号-1 )|联系我们 |网站地图
GMT+8, 2025-7-18 22:18 , Processed in 0.268744 second(s), 18 queries , Gzip On.
Copyright © 1999-2025 C114 All Rights Reserved
Discuz Licensed