OpenAI 最新研究揭示：最先进的 AI 仍难以解决编码问题

作者：AI在线 2025-02-24 09:09

近日，OpenAI 的研究人员在一篇新发布的论文中坦言，尽管目前的 AI 技术已经相当先进，但这些模型依然无法与人类程序员相媲美。 OpenAI 首席执行官山姆・阿尔特曼曾表示，预计到今年底，AI 将能够战胜 “低级” 软件工程师，但研究结果却显示，这些 AI 模型仍然面临重大挑战。图源备注：图片由AI生成，图片授权服务商Midjourney在研究中，OpenAI 团队使用了一种名为 SWE-Lancer 的新基准测试，评估了从自由职业网站 Upwork 上提取的1400多项软件工程任务的表现。

近日，OpenAI 的研究人员在一篇新发布的论文中坦言，尽管目前的 AI 技术已经相当先进，但这些模型依然无法与人类程序员相媲美。OpenAI 首席执行官山姆・阿尔特曼曾表示，预计到今年底，AI 将能够战胜 “低级” 软件工程师，但研究结果却显示，这些 AI 模型仍然面临重大挑战。

代码互联网 (1)

图源备注：图片由AI生成，图片授权服务商Midjourney

在研究中，OpenAI 团队使用了一种名为 SWE-Lancer 的新基准测试，评估了从自由职业网站 Upwork 上提取的1400多项软件工程任务的表现。该测试重点考察了三个大型语言模型（LLM）的编码能力，包括 OpenAI 的 o1推理模型、旗舰产品 GPT-4o 以及 Anthropic 的 Claude3.5Sonnet。

这些模型被要求完成两种类型的任务:一是单个任务，主要集中于修复程序中的错误;二是管理任务，要求模型进行更高层次的决策。在测试过程中，这些模型没有访问互联网的权限，意味着它们无法直接查找网上的答案。

尽管这些模型承接的任务总价值高达数十万美元，但它们只能修复表面性的问题，难以在复杂项目中找到更深层次的错误和根本原因。这种情况让人想起使用 AI 的体验:AI 虽然能快速生成看似正确的信息，但经常会在更深入的检验中暴露出不足。

论文指出，虽然这三款 LLM 在处理任务的速度上远超人类，但它们往往无法全面理解错误的广泛性和上下文，这导致它们给出的解决方案常常不够准确或不够全面。研究人员表示，Claude3.5Sonnet 的表现优于 OpenAI 的两款模型，获得的收益也更高，但其回答的准确率仍未达到可信赖的水平。

研究表明，尽管这些先进的 AI 模型在某些特定任务上能够快速运作，但它们在整体软件工程能力上仍显不足，远未达到可以取代人类程序员的水平。然而，这并未阻止一些企业将人类程序员替换为尚不成熟的 AI 模型。

划重点:
🧑‍💻 OpenAI 研究表明，先进 AI 模型在编码能力上仍落后于人类程序员。
🚫 三款 AI 模型在修复编码错误方面表现不佳，难以解决复杂问题。
🔍 尽管 AI 速度快，但它们缺乏全面理解能力，导致解决方案的准确性不足。

OpenAI 最新研究揭示：最先进的 AI 仍难以解决编码问题

相关资讯

OpenAI CFO称正在开发AI代理“A-SWE ”以替换软件工程师

OpenAI推全新语音转录模型gpt-4o-transcribe，语音转文字准确率飙升

OpenAI发布GPT-4.1系列模型：能力全面超越前代

​OpenAI 最新研究揭示：最先进的 AI 仍难以解决编码问题

相关资讯

OpenAI CFO称正在开发AI代理“A-SWE ”以替换软件工程师

OpenAI推全新语音转录模型gpt-4o-transcribe，语音转文字准确率飙升

OpenAI发布GPT-4.1系列模型：能力全面超越前代

OpenAI 最新研究揭示：最先进的 AI 仍难以解决编码问题