数学推理

LLM能理解数学吗？最新研究揭露大模型数学推理的致命缺陷

LLM能理解数学吗？最新研究揭露大模型数学推理的致命缺陷

你有没有想过，那些在聊天中侃侃而谈的AI大模型，遇到数学题时会是什么样子？就像一个平时很会聊天的朋友，突然被问到复杂的数学问题时支支吾吾的样子。最近有研究团队专门研究了这个问题，结果发现了一些让人意外的真相。

5/27/2025 1:27:00 AM

无影寺

深夜突袭，DeepSeek-Prover-V2加冕数学王者！671B数学推理逆天狂飙

深夜突袭，DeepSeek-Prover-V2加冕数学王者！671B数学推理逆天狂飙

就在刚刚，DeepSeek-Prover-V2正式发布。此次DeepSeek-Prover-V2提供了两种模型尺寸：7B和671B参数。 DeepSeek-Prover-V2-671B：在DeepSeek-V3-Base基础上训练，推理性能最强。

5/1/2025 10:33:59 AM

新智元

不蒸馏 R1 也能超越 DeepSeek，上海 AI Lab 用 RL 突破数学推理极限

不蒸馏 R1 也能超越 DeepSeek，上海 AI Lab 用 RL 突破数学推理极限

从 Qwen2.5-32B-Base 模型出发，仅通过微调和基于结果反馈的强化学习，在不蒸馏超大模型如 DeepSeek-R1 的情况下，就能超越 DeepSeek-R1-Distill-Qwen32B 和 OpenAI-O1 系列的超强数学推理性能。

2/16/2025 12:14:22 PM

汪淼

资讯热榜

GGUF 是什么？一文看懂大模型里最火的模型格式可灵、即梦、海螺、Vidu哪家强？4大AI视频神器深度测评 AI应用新纪元：2025中国AI应用排行榜榜单揭晓丨2025年1月我为什么离开OpenAI？六年元老发离职长文：AGI将至，我们远没准备好深度拆解！这可能是全网最详细的AI视频创作教程 AI 黑话太多看不懂？一文帮你打通：AI, 机器学习, 大模型, LLM, Agent 都是啥关系？ OpenAI在德败诉！AI训练使用歌词被认定侵权，欧洲生成式AI版权监管迎来分水岭 OpenAI新幻觉论文惹争议！GPT-5拉胯是测试基准有问题？？

标签云

AI 人工智能 OpenAI AIGC 模型 ChatGPT DeepSeek 谷歌 AI绘画大模型机器人数据 Midjourney 开源 AI新词 Meta 微软智能用户 GPT 学习技术智能体马斯克 Gemini Anthropic 图像英伟达 AI创作训练 LLM 论文代码算法 AI for Science Agent 苹果 Claude 芯片腾讯 Stable Diffusion 蛋白质开发者 xAI 生成式神经网络机器学习 3D RAG 具身智能 AI视频人形机器人研究大语言模型百度生成 GPU Sora 工具华为计算字节跳动 AI设计大型语言模型 AGI 搜索视频生成场景生成式AI 深度学习 DeepMind 架构 AI模型亚马逊特斯拉 Transformer 编程视觉 MCP 预测