原本以为,大模型考过了医学考试,离成为“AI医生”也就差临门一脚。没想到,牛津大学最新这项研究,却狠狠给了一记当头棒喝。
论文地址:https://arxiv.org/pdf/2504.18919
你在新闻里看到的那些“AI诊断准确率高达99%!”“大模型吊打专业医生!”的标题,真的靠得住吗?
牛津的研究团队专门找来了1298个英国普通人,给他们设了十个真实的就医场景。
他们要像现实生活中那样判断:我现在的症状会不会很严重?该自己扛、去社区医院,还是得立刻冲急诊?有些人手里有大模型帮忙,有些人只能自己用Google查。
这次拿来PK的,不是什么小模型,而是GPT-4o、Llama 3和Cohere的Command R+。理论上都是“天花板”级别的AI。
可结果呢?模型单独答题时,表现得堪称完美:GPT-4o能正确识别94.7%的疾病,推荐的处理方式也有64.7%是对的,Llama 3和Command R+的数字也都不低。你以为AI只要上线,人人有救?
研究方案:(a) 3名医生编写了10个医疗案例,经反复修改后对处置方式(从自我护理到叫救护车共5级)达成一致。(b) 另4名医生提供鉴别诊断,汇总形成标准答案。(c) 招募1298人随机分4组,每组测试1个案例。实验组用大语言模型辅助判断,对照组可使用任意方法(多数用搜索引擎或自身知识)。(d) 受试者选择处置方式并说明相关病症。每人测试2个案例,每组最终收集600例数据,以标准答案评估结果。
可一旦让真实用户自己来和大模型互动,情况就变了味:用AI辅助以后,大家反而只在34.5%的场景下能说出正确疾病名,比不看AI、自己查资料的还差。选对处理方式的概率,也没比对照组更高。AI越聪明,用户却越“迷糊”。
大语言模型单独使用及与用户协作的表现
为什么会这样?研究团队发现,并不是AI本身不行,而是“人和AI”这个配合环节,掉了链子。比如,用户描述症状时信息不全,AI就诊断失误;AI给了2.2个可能选项,用户只会采纳1.33个,其中三分之一还选错了。模型说得再明白,用户没能听懂,或者没按建议去做,那些医学知识就像被锁进了黑箱。
如上图,在多个大语言模型(如 GPT-4o、LLaMA 3 70B 和 Command R+)在医学问答任务(MedQA)中的表现,并与人类用户进行了对比。结果表明,尽管模型在标准问答任务中普遍达到或超过人类通过标准(60%),但在模拟临床场景中的判断任务(如确定最佳处理方式和相关疾病条件)上表现不稳定。此外,模拟用户的判断准确性与真实人类用户的表现高度相关,说明模拟用户在实验中可以有效代表人类行为。
图注:交互过程中的相关病症识别情况
这像不像我们生活里那些“明明有说明书还是装错了家具”“菜谱写得清清楚楚但最后炒糊了”的瞬间?技术好归好,人用不明白,一切白搭。你给爸妈买了最新旗舰手机,他们却只会用来打电话发微信;AI医生再牛,遇到现实生活的“碎片信息、临场慌乱、沟通误会”,一样抓瞎。
很多人还沉浸在“AI马上能缓解医疗资源紧张”的美梦里。但牛津团队泼了一盆冷水:实验室里的高分,到了现实世界就打了折扣。用考试题、模拟病人测AI,分数再高,不能代表它能搞定真实用户。AI会答题,但不懂得主动追问、不知道怎样引导患者补全信息——这才是最大短板。
更讽刺的是,模型测评用的MedQA等考试题,AI能刷满分,轮到和真人互动,反而“翻车”了。你让AI和模拟病人聊,结果也比和真实用户高。AI和AI之间的交流当然顺畅,可人类的表达、记忆、情绪、甚至敷衍,才是现实世界最大的bug。
当然,这项牛津研究本身也还算“半真实”:参与者是健康人,按照剧本模拟生病,比起真正带病痛、焦虑、信息混乱的真实患者,还是有距离。AI用的是API接口,不是像ChatGPT那样的连续对话体验。没有上下文,没有“链式思考”,现实中的各种“人性化提示”也没加进去。
哪怕如此,这个实验还是给我们敲了警钟:AI不是不能用,而是“AI+人”这套流程,才是最难啃的硬骨头。
我们太习惯于相信“技术能一锤定音”,却忘了现实世界的混乱、粗糙和不确定。你以为AI医生上线就能解放一线医生?但在真正的就医现场,信息永远不全,沟通永远混乱,决策永远充满不确定。就像生活中那些手抖拍糊的照片,才是最接近真实的“医学场景”。
所以,AI医学的未来,绝不只是模型分数的竞赛,而是“如何让普通人和AI好好说话”的漫长修炼。 AI要走进医疗的最后一公里,脚下的路,还很长很长。
来源:36kr
|