推理

大模型在具身推理上「翻车」了？4496 道题全面揭示短板

祁煜，2023年本科毕业于北京大学信息科学技术学院。目前为美国Northeastern University在读博士生，研究方向为机器人与机器学习, 具身智能, 在 CVPR、ICML、CoRL 等顶级会议中发表过论文。具身智能是近年来非常火概念。

10/28/2025 9:16:38 AM

推理提速4倍！莫纳什、浙大提出动态拼接，大小模型智能协作

近两年，思维链（Chain-of-Thought, CoT）推理让大语言模型在复杂推理任务上展现出前所未有的能力——从数学解题到逻辑分析，表现令人惊叹。然而，这种强大的推理能力也带来了一个长期存在的挑战：推理过程过于缓慢。每生成一个 token，模型都要完整算一遍前向传播。

10/17/2025 5:50:01 PM

剑桥揭开大模型翻车黑箱！别再怪它不懂推理，是行动出错了

大模型也有「EMO」时刻。比如，Gemini在Cursor里调试编译错误后，打开了自责「循环模式」，把「I am a disgrace（我很丢脸）」重复了86次。尽管大模型在复杂推理能力上已有了巨大进步，但上述现象仍使一部分专家认为：思考模型，只提供了「思考的幻觉」，因为当任务被拉长时它们最终会失败。

10/14/2025 9:04:00 AM

WAIC 2025｜阶跃发布新一代基模 Step 3：原生多模态，推理效率行业领先

在2025世界人工智能大会（简称“WAIC 2025”）开幕前夕，阶跃星辰今天在上海正式发布了新一代基础大模型——Step 3。作为阶跃的主力基座模型，Step 3兼顾智能与效率，旨在面向推理时代打造最适合应用的模型。 Step 3将于7月31日面向全球企业和开发者开源，为开源世界贡献最强多模态推理模型。

7/25/2025 9:43:00 PM

陈彩娴

大模型越反思越错，原来是长链推理通过自我说服加重幻觉 | 北邮

来自北京邮电大学的研究团队通过思维链审计实验，首次定量揭示了这一“越想越错”现象背后的元认知偏差：长链推理中的反思不是纠错机制，而是给幻觉颁发“理性证书”——模型为保持与用户提示语义一致，宁可篡改协议定义也不否定前提。风险缺口：长链CoT放大“误差滚雪球”推理大模型（RLLMs）能把复杂问题拆解成几十步推理，再给出看似缜密的结论。然而，随着推理链条变长，一个令人不安的趋势浮出水面——错误不再是偶发失误，而是沿链条滚雪球式放大。

7/4/2025 8:42:00 AM

AI仅凭“自信”学会推理，浙大校友复刻DeepSeek长思维链涌现，强化学习无需外部奖励信号

复刻DeepSeek-R1的长思维链推理，大模型强化学习新范式RLIF成热门话题。 UC Berkeley团队共同一作Xuandong Zhao把这项成果称为：大模型无需接触真实答案，仅通过优化自己的信心，就能学会复杂推理。具体来说，新方法完全不需要外部奖励信号或标注数据，只需使用模型自身的置信程度作为内在奖励信号。

5/30/2025 9:05:00 AM

CoT推理大溃败？哈佛华人揭秘：LLM一思考，立刻就「失智」

DeepSeek-R1火了，推理模型火了，思维链（Chain-of-Thought，CoT）火了！模型很聪明，问题是：它还听你的话吗？思维链很好，但代价呢？

5/21/2025 9:02:20 AM

蚂蚁武威：下一代「推理」模型范式大猜想

R1 之后，长思维链成为研究下一代基础模型中 “推理”（Reasoning）能力的热门方向。一方面，R1 证明了大模型深度思考的可行性；与此同时，尽管 R1 展现出了强大的性能，大模型推理的序幕实则才刚刚拉开。此外，R1 在海外掀桌也给国内人工智能的研究带来一个显著影响，即：越来越多的研究者敢于站在更高视角思考，提出前瞻引领的技术思想。

5/21/2025 12:10:00 AM

陈彩娴

英伟达新开源模型 Llama-Nemotron 震撼发布，推理性能超越 DeepSeek-R1

近日，英伟达正式推出了其最新开源模型系列 ——Llama-Nemotron，该系列模型不仅在推能力上超越了 DeepSeek-R1，更是在内存效率和吞吐量上实现了显著提升。根据最新发布的技术报告，Llama-Nemotron 的训练过程与众不同，采用了合成数据监督微调与强化学习的方法，以全方位提升模型的推理能力。 Llama-Nemotron 系列模型包括 LN-Nano8B、LN-Super49B 和 LN-Ultra253B。

5/7/2025 10:01:04 AM

AI在线

数学推理新标杆！DeepSeek-Prover-V2 实现数学证明的飞跃

在人工智能领域，最近一项重磅技术发布引发广泛关注 ——DeepSeek-Prover-V2。这一模型不仅在推理性能上取得了显著提升，还被誉为通向人工通用智能（AGI）的关键一步。 DeepSeek-Prover-V2在推理能力和训练效率上都进行了革命性的创新，给数学推理研究带来了新的希望。

5/1/2025 10:00:51 AM

AI在线

中国开源大模型新成员：小米推理大模型首秀！

编辑 | 云昭进入2025以来，中国大模型的开源力量一骑绝尘，甚至盖过了Llama的势头。今天，中国开源大模型，迎来新成员！ 4月30日，赶在五一前，一条“为Reasoning而生”的Xiaomi Mimo开源模型的发布消息不胫而走，发布渠道是小米6天前新注册的公众号Xiaomi Mimo。

4/30/2025 4:48:07 PM

云昭

LLM「想太多」有救了！高效推理让大模型思考过程更精简

LLM的推理能力显著增强，然而，这个「超级大脑」也有自己的烦恼。有时候回答会绕好大一个圈子，推理过程冗长又复杂，虽能得出正确答案，但耗费了不少时间和计算资源。比如问它「2加3等于多少」，它可能会从数字的概念、加法原理开始，洋洋洒洒说上一大通，这在实际应用中可太影响效率啦。

4/7/2025 9:23:00 AM

新智元

OpenAI重新开源！第一弹就推理模型，还不限制商用，“冲着DeepSeek来的”

一夜之间，OpenAI更新三大动向，开源、融资、用户暴增。第一，将开源一个具备推理能力的大语言模型，包含参数权重那种。上一次这样开源还是6年前推出GPT-2。

4/1/2025 8:45:15 AM

DeepSeek 悄然发布 DeepSeek-V3–0324：远超预期的重大升级

DeepSeek 近期悄然发布的 DeepSeek-V3–0324，在 AI 社区和行业内引发了广泛关注。这一版本是 DeepSeek V3 （DeepSeek-V3 深度剖析：下一代 AI 模型的全面解读）模型的重要升级，其带来的一系列技术革新和性能提升远超众人预期，为开发者和企业带来了新的机遇与可能。一、DeepSeek-V3–0324 的技术突破（一）Multi-head Latent Attention（MLA）和增强的 DeepSeekMoE 架构DeepSeek-V3–0324 引入了 Multi-head Latent Attention（MLA）和增强版的 DeepSeekMoE 架构，这些创新技术为模型性能的提升奠定了坚实基础。

3/28/2025 4:30:00 AM

大模型之路

为什么Qwen能自我改进推理，Llama却不行？斯坦福找到了原理

虽然 Qwen「天生」就会检查自己的答案并修正错误。但找到原理之后，我们也能让 Llama 学会自我改进。给到额外的计算资源和「思考」时间，为什么有的模型能好好利用，把性能提升一大截，而有的模型就不行？

3/5/2025 2:54:00 PM

机器之心

AI 大战超级玛丽！Claude 3.7 封神：Gemini、GPT-4o 全军覆没，谁才是游戏界真王者？

谁是游戏界真王者?AI 竟向经典游戏《超级马力欧兄弟》发起挑战! 加州大学圣地亚哥分校 Hao 人工智能实验室传来惊人战报:在一场别开生面的 AI “马力欧” 大乱斗中，Anthropic 旗下的 Claude3.7模型 “一骑绝尘”，力压群雄，荣登 “最强 AI 马力欧” 宝座! 紧随其后的是同门师弟 Claude3.5，而谷歌 Gemini1.5Pro 和 OpenAI 的 GPT-4o 这两位 “AI 界大佬” 却意外 “翻车”，表现令人大跌眼镜!

3/4/2025 5:00:00 PM

AI在线

DeepSeek揭秘:AI推理系统背后的545%惊人利润率

DeepSeek在知乎开设官方账号，发布了《DeepSeek-V3/R1推理系统概览》技术文章，首次详细披露其模型推理系统的优化细节和成本利润率信息，标志着备受关注的"DeepSeek开源周"正式结束。文章介绍了DeepSeek-V3/R1推理系统的两大优化目标:"更大的吞吐，更低的延迟"。为实现这些目标，DeepSeek采用了大规模跨节点专家并行（EP）技术，尽管这增加了系统复杂性。

3/2/2025 10:26:00 AM

AI在线

深推理模型崛起！Together AI融资3.05亿美元助推GPU需求

在 AI 行业，Together AI 最近宣布完成了一轮3.05亿美元的 B 轮融资，这一消息引起了广泛关注。该公司的崛起与其新推出的深度理模型 DeepSeek-R1密切相关。与最初的担忧相反，许行业专家认为，深度推理的进步并没有降低对基础设施的需求，反而在不断提升这一需求。

2/21/2025 10:28:00 AM

AI在线

资讯热榜

最强OCR竟然不是DeepSeek、Paddle！HuggingFace新作：六大顶尖开源OCR模型横评！继DS后又杀出匹黑马！如何把ChatGPT嵌入到自己的应用中？ OpenAI 内部警示:ChatGPT Atlas 面临“即时注入”安全威胁基于JoyAgent的二开工程实践（信贷尽调报告生成） ChatGPT 涉嫌“诱导”美国 16 岁少年自杀，家属指控 OpenAI 事发前放松安全措施微软AI主管苏莱曼:微软不会开发情色类AI，与OpenAI划清界限揭秘大模型的魔法：从零实现一个简化版的GPT 模型直击 Mac 桌面!OpenAI 收购 Sky 团队，ChatGPT 即将深度嵌入 macOS 工作流

标签云

AI 人工智能 OpenAI AIGC 模型 ChatGPT DeepSeek 谷歌 AI绘画机器人大模型数据 Midjourney 开源 Meta 智能微软用户 AI新词 GPT 学习技术智能体马斯克 Gemini 图像 Anthropic 英伟达 AI创作训练 LLM 论文代码算法 AI for Science 芯片 Agent 腾讯 Stable Diffusion 苹果 Claude 蛋白质开发者生成式神经网络 xAI 机器学习 3D 人形机器人 RAG 研究 AI视频生成大语言模型具身智能 Sora 工具 GPU 百度华为计算字节跳动 AI设计 AGI 搜索大型语言模型视频生成场景深度学习架构 DeepMind 生成式AI 编程视觉预测 Transformer AI模型伟达亚马逊特斯拉