数学

AI解数学题只靠最后一个token

henry 发自凹非寺. 量子位 | 公众号 QbitAI大语言模型在解心算题时，只依赖最后一个token？最近，来自加州大学圣克鲁兹分校、乔治·梅森大学和Datadog的研究人员发现：在心算任务中，几乎所有实际的数学计算都集中在序列的最后一个token上完成，而不是分散在所有token中。

9/14/2025 1:37:10 PM

henry

有道推出“子曰3”模型，轻松破解数学难题，助力教育公平！

6月23日，网易有道正式推出并开源其最新的 “子曰3” 系列大模型，英文名为 Confucius3-Math。这一专注于数学教育的推理模型，能够在普通的消费级 GPU 上高效运行，成为国内首个如此低成本高性能的 AI 教育工具。在一系列数学推理任务中，“子曰3” 展现出了超越许多大规模通用模型的出色性能。

6/23/2025 6:00:39 PM

AI在线

大模型也需要自我反思，上海AI Lab合成“错题本”让大模型数学成绩提升13.3%

大模型学习不仅要正确知识，还需要一个“错题本”？上海AI Lab提出了一种新的学习方式，构建了“错误-反思-修正”数据，让大模型仿照人类的学习模式，从错误中学习、反思。结果，在Llama3-8B上，数学题的解题准确率平均提升了13.3%。

6/18/2025 9:03:07 AM

数学推理新标杆！DeepSeek-Prover-V2 实现数学证明的飞跃

在人工智能领域，最近一项重磅技术发布引发广泛关注 ——DeepSeek-Prover-V2。这一模型不仅在推理性能上取得了显著提升，还被誉为通向人工通用智能（AGI）的关键一步。 DeepSeek-Prover-V2在推理能力和训练效率上都进行了革命性的创新，给数学推理研究带来了新的希望。

5/1/2025 10:00:51 AM

AI在线

声称“媲美人类专家”，谷歌 Gemini 1.5 Pro 数学版“提智”：MATH 基准准确率 91.1%

谷歌公司上周发布技术报告，表示 Gemini 1.5 Pro 模型在经过专门的数学领域训练之后，大幅提高了数学成绩，并成功解决了国际数学奥林匹克竞赛的部分问题。谷歌针对数学场景有针对性地训练 Gemini 1.5 Pro 模型，并通过 MATH 基准、美国数学邀请考试（ AIME) 和谷歌内部的 HiddenMath 基准进行测试。根据谷歌的数据，数学型 Gemini 1.5 Pro 在数学基准测试中的表现“与人类专家的表现相当”，与标准的非数学型 Gemini 1.5 Pro 相比，数学型 Gemini 1.5

5/21/2024 9:03:42 AM

故渊

资讯热榜

印度创新试点：AI 聊天机器人助力电子商务购物新方式两部门联合发布《政务领域人工智能大模型部署应用指引》大力推动AI技术应用 Sora2公布提示词指南！直接抄作业能玩一整天！ OpenAI新研究称GPT-5为迄今“政治偏见最少”的AI模型软银贷款50亿美元助力AI投资，孙正义押注未来科技！ OpenAI Sora 引爆 App Store“山寨潮”:30万次下载!苹果审核机制遭质疑马斯克 xAI 在孟菲斯开建全球最大污水处理厂，年节约饮用水达 190 亿升前DeepMind大神创业一年估值飙至80亿美元：Reflection AI要做美国版DeepSeek

标签云

AI 人工智能 OpenAI AIGC 模型 ChatGPT DeepSeek 谷歌 AI绘画机器人数据大模型 Midjourney 开源 Meta 智能微软用户 AI新词 GPT 学习技术智能体马斯克 Gemini 图像 Anthropic 英伟达 AI创作训练论文代码 LLM 算法芯片 Stable Diffusion 腾讯苹果 AI for Science Agent Claude 蛋白质开发者生成式神经网络 xAI 机器学习 3D 研究人形机器人生成 AI视频百度工具 RAG 大语言模型 Sora 华为 GPU 计算具身智能 AI设计字节跳动搜索大型语言模型 AGI 场景深度学习视频生成架构预测视觉 DeepMind 伟达 Transformer 编程 AI模型神器推荐亚马逊 MCP