PlanBench

OpenAI o1 AI 模型 PlanBench 规划能力实测：准确率 97.8%，远超 LLaMA 3.1 405B 创造的 62.6% 纪录

来自亚利桑那州立大学的科研团队利用 PlanBench 基准，测试了 OpenAI o1 模型的规划能力。研究结果表明 o1 模型取得了长足的进步，但仍然存在很大的局限性。PlanBench 基准简介PlanBench 开发于 2022 年，用于评估人工智能系统的规划能力，包括 600 个来自 Blocksworld 领域的任务，其中积木必须按照特定顺序堆叠。OpenAI o1 模型成绩在 Blocksworld 任务中，OpenAI 的 o1 模型准确率达到 97.8%，大大超过了之前的最佳语言模型 LLaMA

9/25/2024 12:20:21 PM

故渊

资讯热榜

苹果发布全新Xcode 26开发者工具：内置ChatGPT先进AI功能 DeepSeek前高管秘密创业，新AI Agent项目已获顶级VC押注那个男人回来了！Ilya现身多伦多大学毕业典礼：AI 像是用数字方式复制出来的大脑！不管你愿不愿意，AI都将深刻影响你的一生！支持MCP！开源智能体开发框架 Rowboat：打造你的智能助手只需几分钟 ChatGPT 语音功能升级，实时翻译对话更自然流畅谷歌 Gemini 应用月下载量超越 ChatGPT，用户活跃度仍显不足苹果将 ChatGPT 和其他 AI 模型引入 Xcode “程序员炸锅”！Claude一夜撤离 Windsurf，OpenAI 收购遭"精准狙击"

标签云

人工智能 AI OpenAI AIGC 模型 ChatGPT DeepSeek AI绘画谷歌数据机器人大模型 Midjourney 用户智能开源微软 GPT 学习 Meta 图像技术 AI创作 Gemini 论文马斯克 Stable Diffusion 算法英伟达代码 Anthropic 芯片开发者生成式蛋白质腾讯神经网络训练 3D 研究生成智能体苹果计算 Sora 机器学习 AI设计 Claude AI for Science GPU AI视频人形机器人搜索华为百度场景大语言模型 xAI 预测伟达深度学习 Transformer LLM 字节跳动 Agent 模态具身智能神器推荐工具文本视觉 LLaMA 算力 Copilot 驾驶大型语言模型 API RAG 应用架构