AIGC宇宙 AIGC宇宙

OpenAI 最新基准测试显示 GPT-5 在多个行业中逐渐逼近人类专家

近日,OpenAI 推出了一项新的基准测试,旨在评估其人工智能模型在各行业与人类专业人士的表现差异。 这项名为 GDPval 的测试,是 OpenAI 对其人工智能系统在经济价值工作中是否能超越人类的重要探索。 根据 OpenAI 的说法,GPT-5模型与 Anthropic 的 Claude Opus4.1模型在某些领域的工作质量已经接近行业专家。

近日,OpenAI 推出了一项新的基准测试,旨在评估其人工智能模型在各行业与人类专业人士的表现差异。这项名为 GDPval 的测试,是 OpenAI 对其人工智能系统在经济价值工作中是否能超越人类的重要探索。根据 OpenAI 的说法,GPT-5模型与 Anthropic 的 Claude Opus4.1模型在某些领域的工作质量已经接近行业专家。

不过,OpenAI 也指出,这些模型并不会立即取代人类工作。尽管一些企业高管预测人工智能将在几年内取代人类的工作,但 OpenAI 承认,当前的 GDPval 测试仅涵盖了人类工作中的一小部分任务。因此,这只是评估人工智能进步的一种方式。

GDPval 测试涵盖了九个主要行业,这些行业对美国国内生产总值(GDP)贡献最大,包括医疗、金融、制造业和政府等领域。该测试评估了在这些行业中的44种职业表现,从软件工程师到护士、再到记者都有涉及。OpenAI 在初始测试中邀请了专业人士对 AI 生成的报告与其他专业人士的报告进行比较,并选择最佳者。例如,投资银行家被要求创建有关最后一公里配送行业的竞争对手分析报告,并与 AI 生成的报告进行比较。OpenAI 随后对 AI 模型在44个职业中 “胜出” 的比率进行了统计。

据悉,在经过增强计算能力的 GPT-5-high 版本测试中,该模型在与行业专家的比较中表现优于或与之持平的比例为40.6%。而 Anthropic 的 Claude Opus4.1模型在任务中表现优于或持平于行业专家的比例则高达49%。OpenAI 认为 Claude 模型的高分主要得益于其制作美观图形的能力,而非单纯的表现。

值得注意的是,大多数工作专业人士的职责远不止提交研究报告,因此,GDPval-v0的测试范围相对有限。OpenAI 表示,未来计划开发更全面的测试,以涵盖更多行业和互动工作流程。尽管如此,公司仍对 GDPval 的进展感到乐观。

OpenAI 首席经济学家亚伦・查特吉在接受采访时表示,GDPval 的结果表明,在这些职业中,人们可以利用人工智能模型将时间花在更有意义的任务上。随着模型能力的提升,专业人士将能够利用这些工具,减轻部分工作负担,从而专注于更高价值的工作。

博客:https://openai.com/index/gdpval/

划重点:

🌟 OpenAI 发布的新基准测试 GDPval 评估 AI 模型在多个行业的表现,与人类专家的能力逐渐接近。  

🤖 GPT-5模型在44种职业中有40.6% 的任务表现优于或持平于行业专家,而 Claude Opus4.1则为49%。  

📈 OpenAI 计划未来推出更全面的测试,以更准确评估 AI 在真实工作中的能力和表现。

相关资讯

全网疯传GPT-5泄露!首次统一GPT和o系列,编程实测demo抢先曝光,下周发布?

GPT-5这回是真的要来了。 现在,全网都在“偶遇”GPT-5。 不仅是ChatGPT上有踪迹:图片而且在MacOS应用的模型列表中也发现了GPT-5。
7/31/2025 4:04:23 PM

李彦宏谈DeepSeek:称大模型成本每年降低90%以上

近日,世界政府峰会(WGS)在阿联酋迪拜盛大开幕,吸引了全球各界精英的关注。 在峰会期间,百度创始人李彦宏与阿联酋AI部长进行了深入对话,共同探讨了AI领域的最新发展趋势。 李彦宏在对话中特别提到了百度在AI推理领域的创新成果——DeepSeek。
2/11/2025 5:48:00 PM
AI在线

国内首创!夸克健康大模型通过12门副主任医师职称考试,4个学科达主任医师水平

夸克健康大模型近日创造了国内AI医疗领域的重要里程碑,在12门国家副主任医师职称考试中成绩全部超过合格线,成为国内首个成功跨越这一专业门槛的大模型。 这一突破标志着AI在医疗专业能力方面达到了新的高度,目前用户已可通过夸克搜索直接调用这一全新的大模型能力。 技术架构与创新突破夸克健康大模型以阿里巴巴的通义千问为技术基础,通过海量高质量数据构建和多阶段后训练策略实现了关键性突破。
5/27/2025 3:01:00 PM
AI在线
  • 1