AIGC宇宙 AIGC宇宙

工程

「开发者私下更喜欢用GPT-5写代码」,Claude还坐得稳编程王座吗?

一直以来,Anthropic 的 Claude 被认为是处理编程任务的最佳模型,尤其是本月初发布的 Claude Opus 4.1,在真实世界编程、智能体以及推理任务上表现出色。 其中在软件编程权威基准 SWE-bench Verified 测试中,Claude Opus 4.1 相较于前代 Opus 4 又有提升,尤其在多文件代码重构方面表现出显著进步。 不过,在刚刚过去的这个周末,Claude 最强编程模型的地位似乎开始动摇了。
8/27/2025 11:35:00 AM
机器之心

GPT-5真的拉胯吗?机器之心一手实测,网友:还我4o、还我4.5

一觉醒来,朋友圈被 GPT-5 刷了屏。 在昨晚长达一个多小时的发布直播中,OpenAI 介绍了 GPT-5 的性能,演示了诸多实用案例,在此不赘述,感兴趣的朋友可以移步:刚刚,奥特曼发布 GPT-5! 人人免费用「博士级」智能,基准图错误遭全网吐槽。
8/8/2025 4:50:00 PM
机器之心

从思考到行动:大模型自主工具调用能力的深度实现

本项目由复旦大学知识工场实验室肖仰华教授、梁家卿青年副研究员领导,博士生韩槿一,硕士生李廷云、熊程元、姜子上、王昕奕等同学共同参与完成。 GPT - 4o、Deepseek - R1 等高级模型已展现出令人惊叹的「深度思考」能力:理解上下文关联、拆解多步骤问题、甚至通过思维链(Chain - of - Thought)进行自我验证、自我反思等推理过程。 但是,多数主流模型仍在基础问题上犯错,复杂四则运算计算失误,简单「两个小数比大小」出错、甚至连数清楚 strawberry 里有几个「r」都能翻车……即使提示像 R1 这样具备深度思考能力的大模型也要消耗大量的 token 才能勉强答对。
4/17/2025 10:43:00 AM
机器之心

一站式解决Deepseek微调三大痛点:数据集、GPU资源、微调手册与源码

1.Deepseek微调痛点Deepseek模型微调是提升在行业领域表现的关键,但你是否被这些问题卡住? 数据集:不知道如何准备,担心数据泄露?  GPU算力:算力不足,Deepseek不同模型尺寸对应的GPU配置选择一头雾水?
3/31/2025 5:10:00 PM
九章云极DataCanvas

刚刚!DeepSeek梁文锋亲自挂名,公开新注意力架构NSA

DeepSeek 新论文来了! 相关消息刚刚发布到 𝕏 就吸引了大量用户点赞、转发、评论三连。 据介绍,DeepSeek 的这篇新论文提出了一种新的注意力机制 ——NSA。
2/18/2025 5:30:00 PM
机器之心

DeepSeek R1不编程就能生成GPU内核,比熟练工程师好,惊到了英伟达

这项尝试只用到了 R1 模型和基本验证器,没有针对 R1 的工具,没有对专有的英伟达代码进行微调。 其实根据 DeepSeek 介绍,R1 的编码能力不算顶尖。 DeepSeek 引爆 AI 社区后,人们都在尝试本地部署和各领域应用,在新模型基础上持续改进的方向也被不断提出。
2/13/2025 1:00:00 PM
机器之心

奥特曼被逼急:深夜上线 o3-mini,甚至免费,网友:还是选DeepSeek

奥特曼能不急吗? 被 DeepSeek 狂轰乱炸了一周后,终于在今天发布了新的模型 o3-mini。 此次发布,o3-mini 包含 low、medium 和 high 三个版本。
2/1/2025 11:48:00 AM
机器之心

用慢思考提升模型安全性,北交大、鹏城实验室提出系统2对齐

AIxiv专栏是AI在线发布学术、技术内容的栏目。 过去数年,AI在线AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术交流与传播。 如果您有优秀的工作想要分享,欢迎投稿或者联系报道。
1/23/2025 11:45:00 AM
机器之心
  • 1