DeepSeek-Prover-V2 登场：AI 数学推理新王者，88.9% 通过率设新标杆

作者：故渊 2025-05-01 09:14

深度求索（DeepSeek）昨日（4 月 30 日）在 AI 开源社区 Hugging Face 上，发布名为 DeepSeek-Prover-V2-671B 的新模型，随后在 GitHub 等平台上公布了论文信息。

AI在线援引论文介绍，DeepSeek-Prover-V2 是一款专注于形式化数学推理的开源大型语言模型，基于 DeepSeek-V3-0324，通过递归定理证明管道生成初始数据。

Deepseek 推出了 DeepSeek-Prover-V2-671B（结合 V3 基础大模型）、DeepSeek-Prover-V2-7B（增强模型）两个模型，以及 DeepSeek-ProverBench 数据集。

DeepSeek-Prover-V2-671B 采用和 DeepSeek V3-0324 相同的架构，并非用于常规对话或者推理，而是用于形式化定理证明、专门增强数学能力的模型。

DeepSeek 团队首先引导 DeepSeek-V3 模型将复杂定理分解为一系列子目标（subgoals），整合非形式与形式化数学推理，在 Lean 4 平台上形式化证明步骤。

DeepSeek-Prover-V2 登场：AI 数学推理新王者，88.9% 通过率设新标杆

接着，利用一个较小的 7B 参数模型处理子目标的证明搜索，减轻计算负担。最终，结合完整的逐步证明与 DeepSeek-V3 的思维链（chain-of-thought），形成强化学习的“冷启动”数据。

DeepSeek-Prover-V2 登场：AI 数学推理新王者，88.9% 通过率设新标杆

在训练中，团队筛选出一批 7B 模型无法直接解决但子目标已被证明的难题。通过整合子目标证明，形成完整的形式化证明，并与 DeepSeek-V3 的推理过程对接，生成合成数据。

随后，模型微调这些数据，并通过强化学习进一步提升能力，以二元反馈（正确或错误）作为奖励机制。最终，DeepSeek-Prover-V2-671B 在神经定理证明领域创下新高，在 MiniF2F-test 数据集上通过率达 88.9%，在 PutnamBench 数据集中解决 658 个问题中的 49 个。

DeepSeek-Prover-V2 登场：AI 数学推理新王者，88.9% 通过率设新标杆

团队还发布了 ProverBench 基准数据集，包含 325 个形式化数学问题。其中，15 个问题源自近期 AIME 竞赛（AIME 24 和 25），涉及数论与代数，代表高中竞赛难度。

其余 310 个问题则来自精选教材和教学内容，涵盖线性代数、微积分、概率等多个领域。这一数据集旨在为高中竞赛和本科数学提供全面评估标准，推动模型在多样化场景下的测试与应用。

相关阅读：

《DeepSeek-Prover-V2-671B 新模型开源发布》

OpenAI首席研究官：DeepSeek独立发现了o1的一些核心思路，奥特曼、LeCun纷纷置评

成本打下来了，需求更多才对？春节这几天，国内外 AI 圈都被 DeepSeek 刷了屏。英伟达的股市震荡更是让全世界看得目瞪口呆（参见《英伟达市值蒸发近 6000 亿美元，而 DeepSeek 刚刚又开源新模型》）。

1/29/2025 6:43:00 PM

机器之心

DeepSeek 更新 R1 推理 AI 模型：代码生成与复杂推理性能大幅提升推理能力比肩 o1

DeepSeek 公司近日对其高性能推理 AI 模型 DeepSeek-R1进行了重大更新，显著提升了模型在代码生成和复杂推理任务中的表现，引发人工智能领域的广泛关注。以下基于公开信息和最新动态，全面解析此次更新的关键亮点。 R1模型更新:代码能力大幅提升DeepSeek-R1的最新更新在代码生成能力上取得了显著突破。

5/29/2025 10:01:21 AM

AI在线

基于 DeepSeek 大模型，河南引入“AI 智审”系统实现货物口岸通关申报“秒级”筛查

AI在线 7 月 25 日消息，据新华网报道，河南省现已为货物口岸通关引入一项“AI 智审”系统，相应系统基于 DeepSeek 大模型开发，可对企业合规性数据申报内容实现“秒级”筛查。 AI在线参考相应报道获悉，“AI 智审”自今年 4 月 24 日上线试运行以来极大降低了企业出海门槛，已累计筛查报关单 76 万次，企业端、海关端审核效率分别提高约 34% 和 70%。新华网援引郑州航空港区一家刚开展进出口业务的企业反馈，在“AI 智审”的帮助下，企业通关申报差错减少 60% 以上，申报效率大幅提高。

7/25/2025 4:16:02 PM

漾仔

DeepSeek-Prover-V2 登场：AI 数学推理新王者，88.9% 通过率设新标杆

相关资讯

OpenAI首席研究官：DeepSeek独立发现了o1的一些核心思路，奥特曼、LeCun纷纷置评

DeepSeek 更新 R1 推理 AI 模型：代码生成与复杂推理性能大幅提升 推理能力比肩 o1

基于 DeepSeek 大模型，河南引入“AI 智审”系统实现货物口岸通关申报“秒级”筛查

DeepSeek 更新 R1 推理 AI 模型：代码生成与复杂推理性能大幅提升推理能力比肩 o1