只需一步,快速开始
短信验证,便捷登录
军衔等级:
中校
北邮网安团队 投稿 量子位 | 公众号 QbitAI
当推理链从3步延伸到50+步,幻觉率暴增10倍;反思节点也束手无策。
当模型在长思维链中反复挣扎,它不是在逼近真相——而是在用千余词的复杂推理,固化几十个词的错误答案。
评测7大主流检测方法,最优者耗时2小时/样本,准确率仍不足79%。 在1500+tokens的长思维链样本上验证,结果显示当前检测方法在元认知级幻觉面前效果堪忧。
0 举报本楼
发表回复 回帖后跳转到最后一页
版规|手机版|C114 ( 沪ICP备12002291号-1 )|联系我们 |网站地图
GMT+8, 2025-7-6 23:46 , Processed in 0.155425 second(s), 18 queries , Gzip On.
Copyright © 1999-2023 C114 All Rights Reserved
Discuz Licensed