PlanBench

OpenAI o1 AI 模型 PlanBench 规划能力实测：准确率 97.8%，远超 LLaMA 3.1 405B 创造的 62.6% 纪录

来自亚利桑那州立大学的科研团队利用 PlanBench 基准，测试了 OpenAI o1 模型的规划能力。研究结果表明 o1 模型取得了长足的进步，但仍然存在很大的局限性。PlanBench 基准简介PlanBench 开发于 2022 年，用于评估人工智能系统的规划能力，包括 600 个来自 Blocksworld 领域的任务，其中积木必须按照特定顺序堆叠。OpenAI o1 模型成绩在 Blocksworld 任务中，OpenAI 的 o1 模型准确率达到 97.8%，大大超过了之前的最佳语言模型 LLaMA

9/25/2024 12:20:21 PM

故渊

资讯热榜

6秒视频10秒生成！全新AI视频神器 Grok Imagine 深度体验+元提示词分享美国女子使用ChatGPT生成号码购彩中奖10万美元：概率事件而非AI预测能力 AI音乐创作成程序员新副业：单曲播放破200万，版权收入数万元 Claude 与 Microsoft 365 深度整合，企业效率再提升！报告揭示互联网新趋势：超半数新内容由 AI 生成 OpenAI 紧急暂停 Sora生成马丁・路德・金形象，AI 视频生成引发热议！推理提速4倍！莫纳什、浙大提出动态拼接，大小模型智能协作全新开源的DeepSeek-OCR，可能是最近最惊喜的模型！

标签云

AI 人工智能 OpenAI AIGC 模型 ChatGPT DeepSeek 谷歌 AI绘画机器人数据大模型 Midjourney 开源 Meta 智能微软用户 AI新词 GPT 学习技术智能体马斯克 Gemini 图像 Anthropic 英伟达 AI创作训练论文 LLM 代码算法芯片 Stable Diffusion AI for Science 腾讯苹果 Agent Claude 蛋白质开发者生成式神经网络 xAI 机器学习 3D 人形机器人研究生成 AI视频百度大语言模型 Sora 工具 GPU 具身智能 RAG 华为计算字节跳动 AI设计搜索 AGI 大型语言模型视频生成场景深度学习架构 DeepMind 视觉预测 Transformer 伟达编程生成式AI AI模型特斯拉亚马逊