o1规划能力首测，已超越语言模型范畴，preview终于赢mini一回 [复制链接]

see122

军衔等级：

四级军士长

发表于 2024-9-29 15:33:55 |显示全部楼层

o1-preview终于赢过了mini一次！

亚利桑那州立大学的最新研究表明，o1-preview在规划任务上，表现显著优于o1-mini。

相比于传统模型的优势更是碾压级别，在超难任务上的准确率比Llama3.1-405B高了11倍。

用“搭积木”测试大模型
为了评估o1系列模型的规划能力，编辑使用了PlanBench评估基准。

该基准的提出者中也正好包含了本文三名编辑中的两名——共同一作Karthik Valmeekam，以及他的导师Subbarao Kambhampati。

PlanBench专门为评估大模型规划能力而设计，任务类型涵盖了计划生成、成本最优规划、计划验证等。

具体到这个实验，编辑使用了其中来自于国际规划竞赛（IPC）的Blocksworld和其变体。

此类问题涉及在桌子上堆叠积木块，目标是从一个初始状态，重新排列到目标配置。

木块用不同的颜色标识，一次只能移动一个积木块，且只能移动每一堆中顶部的积木块，被拿起的积木块也只能放在顶部或直接放在桌子上。

o1-preview超强规划
o1这边的测试结果显示，preview相比mini，成绩优势十分明显。

在Blockworlds任务上，preview版准确率达98%，而mini只有56.6%，表现还不如llama。

当然加入了混淆之后，mini相比于llama也显示出了一些优势——

在零样本配置下，preview版的准确率超过了一半，比llama的4.3%高出了11倍多；mini版也达到了19.1%，比llama高3.4倍。

最后在全随机版本下，o1-preview还能拥有37.3%的准确率。

那么，如果你是开发者，会愿意为了o1的高性能付出更多的成本吗？欢迎评论区交流。

论文地址：
https://arxiv.org/abs/2409.13373

参考链接：
https://x.com/rao2z/status/1838245261950509170

举报本楼

本帖有 2 个回帖，您需要登录后才能浏览登录 | 注册

返回列表

手机版|C114 ( 沪ICP备12002291号-1 )|联系大家 |网站地图

GMT+8, 2024-12-24 03:49 , Processed in 0.106125 second(s), 17 queries , Gzip On.

Discuz Licensed

回顶部

XML 地图 | Sitemap 地图

		自动登录	找回密码
密码			注册