北邮网安团队 投稿 量子位 | 公众号 QbitAI
当推理链从3步延伸到50+步,幻觉率暴增10倍;反思节点也束手无策。
当模型在长思维链中反复挣扎,它不是在逼近真相——而是在用千余词的复杂推理,固化几十个词的错误答案。
评测7大主流检测方法,最优者耗时2小时/样本,准确率仍不足79%。 在1500+tokens的长思维链样本上验证,结果显示当前检测方法在元认知级幻觉面前效果堪忧。