OpenAI 推出 SWE-Lancer 基准测试:评估真实世界自由软件工程工作的模型性能

作者：AI在线 2025-02-18 04:55

在软件工程领域，随着挑战的不断演变，传统的基准测试方法显得力不从心。自由职业的软件工程工作复杂多变，远不止是孤立的编码任务。自由职业工程师需要处理整个代码库，集成多种系统，并满足复杂的客户需求。

在软件工程领域，随着挑战的不断演变，传统的基准测试方法显得力不从心。自由职业的软件工程工作复杂多变，远不止是孤立的编码任务。自由职业工程师需要处理整个代码库，集成多种系统，并满足复杂的客户需求。而传统的评估方法通常侧重于单元测试，无法充分反映全栈性能和解决方案的实际经济影响。因此，开发更为真实的评估方法显得尤为重要。

为此，OpenAI 推出了 SWE-Lancer，一个针对真实世界自由软件工程工作进行模型性能评估的基准测试。该基准测试基于来自 Upwork 和 Expensify 存储库的1400多个自由职业任务，总支付金额达到100万美元。这些任务从小的 bug 修复到大型功能实现应有尽有。SWE-Lancer 旨在评估个别代码补丁及管理决策，要求模型从多个选项中选择最佳提案。这种方法更好地反映了真实工程团队的双重角色。

SWE-Lancer 的一大优势在于使用端到端测试，而非孤立的单元测试。这些测试经过专业软件工程师精心设计和验证，能够模拟从问题识别、调试到补丁验证的整个用户工作流程。通过使用统一的 Docker 镜像进行评估，基准测试确保每个模型在相同的受控条件下进行测试。这种严格的测试框架有助于揭示模型解决方案是否足够稳健，适合实际部署。

SWE-Lancer 的技术细节设计巧妙，真实地反映了自由职业工作的实际情况。任务要求对多个文件进行修改，并与 API 集成，涉及移动和 Web 平台。除了生成代码补丁，模型还需要审查并选择竞争提案。这种对技术与管理技能的双重关注，体现了软件工程师的真实职责。同时，包含的用户工具模拟真实用户互动，进一步增强了评估，鼓励迭代调试和调整。

通过 SWE-Lancer 的结果，研究人员能够深入了解当前语言模型在软件工程领域的能力。在个体贡献任务中，像 GPT-4o 和 Claude3.5Sonnet 这样的模型的通过率分别为8.0% 和26.2%。而在管理任务中，表现最佳的模型达到了44.9% 的通过率。这些数据表明，尽管最先进的模型能够提供有希望的解决方案，但仍然有很大的提升空间。

论文:https://arxiv.org/abs/2502.12115

划重点:
💡 ** 创新评估方法 **:SWE-Lancer 基准测试通过真实的自由职业任务，提供了更具真实性的模型性能评估。
📈 ** 多维度测试 **:使用端到端测试代替单元测试，更好地反映软件工程师在真实工作中的复杂性。
🚀 ** 提升潜力 **:现有模型虽然表现出色，但通过更多尝试和计算资源仍有提升的空间。

调查：超72% 的企业选择 AI 工具时最看重易用性

根据最近的一项 CIO 报告，企业在人工智能（AI）领域的投资高达2.5亿美元，尽管在证明投资回报率(ROI)方面面临挑战。商业领袖们正努力提高生产力，但新技术的集成往往需要重构现有应用、更新流程并激励员工学习，以适应现代商业环境。 QuickBlox 首席执行官 Nate MacLeitch 对136位高管进行了调查，以揭示 AI 采用的现实情况，探讨领导者的首要任务、主要担忧以及他们在2025年寻找可信工具的信息来源。

3/18/2025 10:02:00 AM

AI在线

专家圆桌：“国产类 ChatGPT ”所存在的差距与挑战

内容来源：ChatGPT 及大模型专题研讨会转载自CSDN稿件在经历寒冬、雾霾，甚至大家纷纷看不到希望之际，ChatGPT 犹如一场春雨，给做 AI 甚至 NLP 等研究的人带来了新的希望。3 月 11 日，由中国人工智能学会主办，中国人工智能学会 NLP 专委会、真格基金、达观数据共同承办，中国信通院云大所支持的「ChatGPT 及大模型专题研讨会」正式举行。在圆桌对话环节，来自学术界、产业界及投资界的知名专家学者，就 ChatGPT 引发的新 AI 浪潮、大模型“基础模型”论、“国产类 ChatGPT ”所存

4/21/2023 9:41:00 AM

达观数据

ChatGPT在iOS美区下载火爆，6天内下载量超过 50 万次

Open AI ChatGPT正在美版iOS市场大杀四方。5月26日，根据App分析厂商Data.AI的消息，ChatGPT在推出后的六天内已经突破了50万次下载，成为美区最近两年内增长速度最快的新应用之一。与此同时，ChatGPT正在美区APP Store掀起一股AI聊天热潮，相关领域的一些消费欺诈也随着ChatGPT的火爆而出现。据TechCrunch报道，随着消费者热情不断高涨，许多其他自称为“ChatGPT”或“AI聊天机器人”的第三方应用也纷纷涌入App Store。其中许多其实本质上都是欺诈应用，试图欺

5/26/2023 7:23:00 PM

yangdz

​OpenAI 推出 SWE-Lancer 基准测试:评估真实世界自由软件工程工作的模型性能

相关资讯

调查：超72% 的企业选择 AI 工具时最看重易用性

专家圆桌：“国产类 ChatGPT ”所存在的差距与挑战

ChatGPT在iOS美区下载火爆，6天内下载量超过 50 万次

OpenAI 推出 SWE-Lancer 基准测试:评估真实世界自由软件工程工作的模型性能