AIGC宇宙 AIGC宇宙

OpenAI百万美元豪测:顶级大模型取代不了程序员

作者:佚名
2025-02-21 11:08
当Sam Altman宣称大模型将取代"低阶程序员"时,OpenAI自家的最新研究却给出了相反的答案。 该研究联合百名工程师开展SWE-Lancer基准测试,结果显示:面对价值百万美元的真实软件开发任务,三大顶尖大模型的总收入竟不足21%,最强者Claude 3.5也仅解决26%技术问题。 这场AI与人类程序员的"抢饭碗"对决,暂时以机器的惨败告终。

当Sam Altman宣称大模型将取代"低阶程序员"时,OpenAI自家的最新研究却给出了相反的答案。该研究联合百名工程师开展SWE-Lancer基准测试,结果显示:面对价值百万美元的真实软件开发任务,三大顶尖大模型的总收入竟不足21%,最强者Claude 3.5也仅解决26%技术问题。这场AI与人类程序员的"抢饭碗"对决,暂时以机器的惨败告终。

OpenAI百万美元豪测:顶级大模型取代不了程序员

百万美元悬赏:AI抢不走程序员饭碗?

研究团队从自由职业平台Upwork精选1,488个真实开发任务,总赏金高达100万美元。这些任务被分为两类:技术攻坚(IC,764项,41.5万美元)需解决程序错误或开发新功能;项目管理(Manager,724项,58.5万美元)则需评估技术方案优劣。三大参赛选手——OpenAI的GPT-4o、o1和Anthropic的Claude 3.5 Sonnet被置于完全断网的Docker容器中,以防止其"偷看"GitHub代码。

为确保测试真实性,研究人员构建了堪称严苛的评估体系:首先由专业工程师编写Playwright自动化测试脚本,模拟用户登录、金融交易等真实操作流程;每项AI生成的代码方案需经过专业软件工程师的"三重验证",确保其能通过所有测试用例;最终结果直接接入企业级报销平台Expensify,完全复现真实商业场景。

经过测试,研究人员发现,没有一个模型能包揽100万美元的全部任务奖励。表现最好的Claude 3.5 Sonnet(OpenAI自家模型o1和GPT-4o分列二三位)也只赚了20.8万美元,解决了26.2%的个人贡献者问题。然而,研究人员指出,“它的大部分解决方案都是错误的,可信部署需要更高的可靠性。”

LLM尝试不同类型软件开发任务的通过率LLM尝试不同类型软件开发任务的通过率

有趣的是,在技术方案评估的管理任务(SWE Manager)上,所有大模型都表现得更好(上图)。

AI开发的致命短板:定位快,但治标不治本

研究者指出,顶级大模型普遍存在致命短板:AI能快速定位bug(速度远超人类),但通常对问题如何跨越多个组件或文件表现出有限的理解,无法解决根本原因,导致解决方案不正确或不够全面。

"就像急诊室里只会贴创可贴的医生。"研究报告犀利指出,大模型处理bug时呈现明显模式:通过关键词搜索快速锁定可疑代码段,却无法理解跨组件/文件的深层关联。典型案例中,AI会机械修改表面错误代码,却放任引发bug的根源继续潜伏——这种"头痛医头"的解决方式,导致多数方案仅能暂时消除症状。

值得玩味的是,尽管当前测试显示AI尚难取代初级软件工程师,但研究者警告:"这种优势可能不会持续太久。"当被问及是否担心研究结果影响行业信心时,OpenAI团队回应称:"揭示技术边界,正是为了突破边界。"这场人机博弈的终局,或许比我们想象中来得更快。

相关标签:

相关资讯

奥特曼透露:GPT-4.5 已问世,AI 编程能力将在年底超越人类顶尖程序员

在东京大学的一场对话活动中,OpenAI 的 CEO 奥特曼揭示了其最新的内部推理模型 ——GPT-4.5。 他表示,当前这一模型的编程能力已跻身全球 Top50程序员之列,并预计在年底时将成为全球第一。 他强调,与顶尖程序员相比,这一模型在编程上的优势越来越明显。
2/10/2025 9:50:00 AM
AI在线

DeepSeek R1 满血版来了,完全不卡!

前言最近DeepSeek爆火。 我之前也发过多篇关于DeepSeek的文章,推荐大家使用它。 今年是AI的一个风口。
2/25/2025 8:20:50 AM
苏三

那些用ChatGPT实现10倍开发效率的顶级程序员,到底做对了什么?

大部分人都错了。 你刚刚发给ChatGPT那条“帮我写个函数实现xxx”的泛泛提示? 删了吧。
4/3/2025 8:36:31 AM
dev
  • 1