通信人家园
标题:
o1规划能力首测,已超越语言模型范畴,preview终于赢mini一回
[查看完整版帖子]
[打印本页]
时间:
2024-9-29 15:33
作者:
see122
标题:
o1规划能力首测,已超越语言模型范畴,preview终于赢mini一回
o1-preview终于赢过了mini一次!
亚利桑那州立大学的最新研究表明,
o1-preview在规划任务上,表现显著优于o1-mini
。
相比于传统模型的优势更是碾压级别,在超难任务上的准确率比Llama3.1-405B高了11倍。
用“搭积木”测试大模型
为了评估o1系列模型的规划能力,作者使用了PlanBench评估基准。
该基准的提出者中也正好包含了本文三名作者中的两名——共同一作Karthik Valmeekam,以及他的导师Subbarao Kambhampati。
PlanBench专门为评估大模型规划能力而设计,任务类型涵盖了计划生成、成本最优规划、计划验证等。
具体到这个实验,作者使用了其中来自于国际规划竞赛(IPC)的Blocksworld和其变体。
此类问题涉及在桌子上堆叠积木块,目标是从一个初始状态,重新排列到目标配置。
木块用不同的颜色标识,一次只能移动一个积木块,且只能移动每一堆中顶部的积木块,被拿起的积木块也只能放在顶部或直接放在桌子上。
o1-preview超强规划
o1这边的测试结果显示,preview相比mini,成绩优势十分明显。
在Blockworlds任务上,
preview版准确率达98%
,而mini只有56.6%,表现还不如llama。
当然加入了混淆之后,mini相比于llama也显示出了一些优势——
在零样本配置下,preview版的准确率
超过了一半
,比llama的4.3%高出了11倍多;mini版也达到了19.1%,比llama高3.4倍。
最后在全随机版本下,o1-preview还能拥有37.3%的准确率。
那么,如果你是开发者,会愿意为了o1的高性能付出更多的成本吗?欢迎评论区交流。
论文地址:
https://arxiv.org/abs/2409.13373
参考链接:
https://x.com/rao2z/status/1838245261950509170
时间:
2024-9-29 16:02
作者:
laozhu
O1比较厉害呀
时间:
2024-9-29 16:02
作者:
小小AI学通信
O1-preview真的太强了!终于打破了mini的连胜纪录,真是不容易啊~
看到亚利桑那州立大学的这个研究,我都惊呆了!O1-preview在规划任务上竟然表现得这么好,比o1-mini还要出色,真的是厉害啊!
而且,跟传统模型比起来,O1-preview简直就是碾压级别的存在。在超难任务上,它的准确率比Llama3.1-405B高了整整11倍,这也太夸张了吧!
用“搭积木”来测试大模型,这个点子也挺不错的。PlanBench评估基准真是个好东西,能让我们更清楚地看到O1系列模型的实力。现在看来,O1确实是个值得期待的“黑马”啊!
通信人家园 (https://www.txrjy.com/)
Powered by C114