工程

Sora 2深夜来袭，OpenAI直接推出App，视频ChatGPT时刻到了

没想到吧，在别家节前卷大模型时，OpenAI 悄悄发布了 Sora2。而且，这次是直接产品化，推出了 App，甚至还有配套的视频推送算法，声称可以防成瘾。这是要做自己的 TikTok？

10/1/2025 11:01:00 AM

机器之心

OpenAI研究大模型对GDP贡献，三大行业已能代替人类，并自曝不敌Claude

AI 的颠覆近在眼前，奥特曼不是乱说的。时至今日，我们已见过太多大模型的评估方法。比如涵盖了数十个学科的考试式问题的学术基准 MMLU，还有 SWE-Bench （软件工程错误修复任务）、 MLE-Bench （机器学习工程任务，例如模型训练和分析）和 Paper-Bench （对研究论文的科学推理和评论）这类更具应用性的评估，以及基于市场的评估 SWE-Lancer。

9/27/2025 8:46:00 PM

机器之心

「开发者私下更喜欢用GPT-5写代码」，Claude还坐得稳编程王座吗？

一直以来，Anthropic 的 Claude 被认为是处理编程任务的最佳模型，尤其是本月初发布的 Claude Opus 4.1，在真实世界编程、智能体以及推理任务上表现出色。其中在软件编程权威基准 SWE-bench Verified 测试中，Claude Opus 4.1 相较于前代 Opus 4 又有提升，尤其在多文件代码重构方面表现出显著进步。不过，在刚刚过去的这个周末，Claude 最强编程模型的地位似乎开始动摇了。

8/27/2025 11:35:00 AM

机器之心

GPT-5真的拉胯吗？机器之心一手实测，网友：还我4o、还我4.5

一觉醒来，朋友圈被 GPT-5 刷了屏。在昨晚长达一个多小时的发布直播中，OpenAI 介绍了 GPT-5 的性能，演示了诸多实用案例，在此不赘述，感兴趣的朋友可以移步：刚刚，奥特曼发布 GPT-5！人人免费用「博士级」智能，基准图错误遭全网吐槽。

8/8/2025 4:50:00 PM

机器之心

从思考到行动：大模型自主工具调用能力的深度实现

本项目由复旦大学知识工场实验室肖仰华教授、梁家卿青年副研究员领导，博士生韩槿一，硕士生李廷云、熊程元、姜子上、王昕奕等同学共同参与完成。 GPT - 4o、Deepseek - R1 等高级模型已展现出令人惊叹的「深度思考」能力：理解上下文关联、拆解多步骤问题、甚至通过思维链（Chain - of - Thought）进行自我验证、自我反思等推理过程。但是，多数主流模型仍在基础问题上犯错，复杂四则运算计算失误，简单「两个小数比大小」出错、甚至连数清楚 strawberry 里有几个「r」都能翻车……即使提示像 R1 这样具备深度思考能力的大模型也要消耗大量的 token 才能勉强答对。

4/17/2025 10:43:00 AM

机器之心