首个工程自动化任务评估基准DrafterBench,可用于测试大语言模型在土木工程图纸修改任务中的表现。通过模拟真实工程命令,全面考察模型的结构化数据理解、工具调用、指令跟随和批判性推理能力,研究结果发现当前主流大模型虽有一定能力,但整体水平仍不足以满足工程一线需求。
论文链接:https://arxiv.org/abs/2507.11527
代码链接:https://github.com/Eason-Li-AIS/DrafterBench
数据链接:https://huggingface.co/datasets/Eason666/DrafterBench
通信人家园 (https://www.txrjy.com/) | Powered by C114 |