数学推理

LLM能理解数学吗？最新研究揭露大模型数学推理的致命缺陷

LLM能理解数学吗？最新研究揭露大模型数学推理的致命缺陷

你有没有想过，那些在聊天中侃侃而谈的AI大模型，遇到数学题时会是什么样子？就像一个平时很会聊天的朋友，突然被问到复杂的数学问题时支支吾吾的样子。最近有研究团队专门研究了这个问题，结果发现了一些让人意外的真相。

5/27/2025 1:27:00 AM

无影寺

深夜突袭，DeepSeek-Prover-V2加冕数学王者！671B数学推理逆天狂飙

深夜突袭，DeepSeek-Prover-V2加冕数学王者！671B数学推理逆天狂飙

就在刚刚，DeepSeek-Prover-V2正式发布。此次DeepSeek-Prover-V2提供了两种模型尺寸：7B和671B参数。 DeepSeek-Prover-V2-671B：在DeepSeek-V3-Base基础上训练，推理性能最强。

5/1/2025 10:33:59 AM

新智元

不蒸馏 R1 也能超越 DeepSeek，上海 AI Lab 用 RL 突破数学推理极限

不蒸馏 R1 也能超越 DeepSeek，上海 AI Lab 用 RL 突破数学推理极限

从 Qwen2.5-32B-Base 模型出发，仅通过微调和基于结果反馈的强化学习，在不蒸馏超大模型如 DeepSeek-R1 的情况下，就能超越 DeepSeek-R1-Distill-Qwen32B 和 OpenAI-O1 系列的超强数学推理性能。

2/16/2025 12:14:22 PM

汪淼

1

资讯热榜

AI 助力百万大奖!女子用 ChatGPT 选号中奖后全数捐出从灵感到落地！教你用AI从零生成完整的卡通IP形象设计最新论文重磅发现！只需一个MBTI人格，AI表现天壤之别？ AI 深度伪造电话攻击激增，企业安全面临新挑战 DeepSeek终极版震撼发布！ OpenAI 发布革命性 GPT-5-Codex 模型，编程未来触手可及美国七巨头，OpenAI、Claude、xAI后训练都找他要专家，时薪高达500刀！史上增长最快公司CEO：大模型处于评测时代 Databricks与OpenAI达成1亿美元合作，推动 AI 集成新篇章

标签云

AI 人工智能 OpenAI AIGC 模型 ChatGPT DeepSeek 谷歌 AI绘画数据机器人大模型 Midjourney 开源 Meta 智能用户微软 GPT 学习 AI新词技术智能体马斯克 Gemini 图像 AI创作英伟达 Anthropic 训练论文代码 LLM 算法 Stable Diffusion 芯片腾讯苹果 AI for Science Claude 蛋白质 Agent 开发者生成式神经网络 xAI 机器学习 3D 研究人形机器人生成 AI视频百度工具计算 RAG 大语言模型 GPU 华为 Sora 具身智能 AI设计字节跳动搜索大型语言模型 AGI 场景深度学习视频生成预测视觉架构伟达 Transformer DeepMind 编程神器推荐 AI模型亚马逊特斯拉