AIGC宇宙 AIGC宇宙

​OpenAI 最新研究揭示:最先进的 AI 仍难以解决编码问题

作者:AI在线
2025-02-24 09:09
近日,OpenAI 的研究人员在一篇新发布的论文中坦言,尽管目前的 AI 技术已经相当先进,但这些模型依然无法与人类程序员相媲美。 OpenAI 首席执行官山姆・阿尔特曼曾表示,预计到今年底,AI 将能够战胜 “低级” 软件工程师,但研究结果却显示,这些 AI 模型仍然面临重大挑战。 图源备注:图片由AI生成,图片授权服务商Midjourney在研究中,OpenAI 团队使用了一种名为 SWE-Lancer 的新基准测试,评估了从自由职业网站 Upwork 上提取的1400多项软件工程任务的表现。

近日,OpenAI 的研究人员在一篇新发布的论文中坦言,尽管目前的 AI 技术已经相当先进,但这些模型依然无法与人类程序员相媲美。OpenAI 首席执行官山姆・阿尔特曼曾表示,预计到今年底,AI 将能够战胜 “低级” 软件工程师,但研究结果却显示,这些 AI 模型仍然面临重大挑战。

代码 互联网  (1)

图源备注:图片由AI生成,图片授权服务商Midjourney

在研究中,OpenAI 团队使用了一种名为 SWE-Lancer 的新基准测试,评估了从自由职业网站 Upwork 上提取的1400多项软件工程任务的表现。该测试重点考察了三个大型语言模型(LLM)的编码能力,包括 OpenAI 的 o1推理模型、旗舰产品 GPT-4o 以及 Anthropic 的 Claude3.5Sonnet。

这些模型被要求完成两种类型的任务:一是单个任务,主要集中于修复程序中的错误;二是管理任务,要求模型进行更高层次的决策。在测试过程中,这些模型没有访问互联网的权限,意味着它们无法直接查找网上的答案。

尽管这些模型承接的任务总价值高达数十万美元,但它们只能修复表面性的问题,难以在复杂项目中找到更深层次的错误和根本原因。这种情况让人想起使用 AI 的体验:AI 虽然能快速生成看似正确的信息,但经常会在更深入的检验中暴露出不足。

论文指出,虽然这三款 LLM 在处理任务的速度上远超人类,但它们往往无法全面理解错误的广泛性和上下文,这导致它们给出的解决方案常常不够准确或不够全面。研究人员表示,Claude3.5Sonnet 的表现优于 OpenAI 的两款模型,获得的收益也更高,但其回答的准确率仍未达到可信赖的水平。

研究表明,尽管这些先进的 AI 模型在某些特定任务上能够快速运作,但它们在整体软件工程能力上仍显不足,远未达到可以取代人类程序员的水平。然而,这并未阻止一些企业将人类程序员替换为尚不成熟的 AI 模型。

划重点:

🧑‍💻 OpenAI 研究表明,先进 AI 模型在编码能力上仍落后于人类程序员。  

🚫 三款 AI 模型在修复编码错误方面表现不佳,难以解决复杂问题。  

🔍 尽管 AI 速度快,但它们缺乏全面理解能力,导致解决方案的准确性不足。  

相关标签:

相关资讯

OpenAI CFO称正在开发AI代理“A-SWE ”以替换软件工程师

在最近的高盛会议上,OpenAI 首席财务官莎拉・弗莱尔(Sarah Friar)透露,该公司正在开发一种名为 “A-SWE” 的人工智能(AI)代理,旨在全面取代软件工程师的工作。 弗莱尔表示,这一新型 AI 不仅能增强现有工程师的工作效率,更能独立完成从应用程序开发到质量保证、故障排除和文档编写等多项任务。 她指出,A-SWE 将使企业的开发团队 “倍增”。
4/15/2025 12:02:18 PM
AI在线

OpenAI推全新语音转录模型gpt-4o-transcribe,语音转文字准确率飙升

继此前在语音 AI 领域引发一些关注后,OpenAI并未停下在该领域探索的脚步,现在这家ChatGPT的创造者再次发力,推出了三款全新的自主研发语音模型,分别为:gpt-4o-transcribe, gpt-4o-mini-transcribe and gpt-4o-mini-tts。 其中最受瞩目的当属gpt-4o-transcribe。 目前,这些新模型已经率先通过应用程序接口(API)向第三方开发者开放,开发者们可以利用它们打造更智能的应用程序。
3/21/2025 9:01:00 AM
AI在线

OpenAI发布GPT-4.1系列模型:能力全面超越前代

4月15日,OpenAI 在其官方博客宣布正式发布 GPT-4.1系列模型,涵盖 GPT-4.1、GPT-4.1mini 和 GPT-4.1nano 三款子模型。 该系列在编程能力、指令理解及长文本处理等方面实现重大突破,全面超越前代 GPT-4o 及 GPT-4o mini。 其中,模型上下文窗口扩展至100万 tokens,知识库更新至2024年6月,为复杂任务提供更强支持。
4/15/2025 9:00:45 AM
AI在线
  • 1