声称“媲美人类专家”，谷歌 Gemini 1.5 Pro 数学版“提智”：MATH 基准准确率 91.1%

作者：故渊 2024-05-21 09:03

谷歌公司上周发布技术报告，表示 Gemini 1.5 Pro 模型在经过专门的数学领域训练之后，大幅提高了数学成绩，并成功解决了国际数学奥林匹克竞赛的部分问题。谷歌针对数学场景有针对性地训练 Gemini 1.5 Pro 模型，并通过 MATH 基准、美国数学邀请考试（ AIME) 和谷歌内部的 HiddenMath 基准进行测试。根据谷歌的数据，数学型 Gemini 1.5 Pro 在数学基准测试中的表现“与人类专家的表现相当”，与标准的非数学型 Gemini 1.5 Pro 相比，数学型 Gemini 1.5

谷歌公司上周发布技术报告，表示 Gemini 1.5 Pro 模型在经过专门的数学领域训练之后，大幅提高了数学成绩，并成功解决了国际数学奥林匹克竞赛的部分问题。

谷歌针对数学场景有针对性地训练 Gemini 1.5 Pro 模型，并通过 MATH 基准、美国数学邀请考试（ AIME) 和谷歌内部的 HiddenMath 基准进行测试。

根据谷歌的数据，数学型 Gemini 1.5 Pro 在数学基准测试中的表现“与人类专家的表现相当”，与标准的非数学型 Gemini 1.5 Pro 相比，数学型 Gemini 1.5 Pro 在 AIME 基准测试中解决的问题明显增多，在其他基准测试中的得分也有所提高。

声称“媲美人类专家”，谷歌 Gemini 1.5 Pro 数学版“提智”：MATH 基准准确率 91.1%

谷歌官方分享的三个示例中，两个是由数学专用的 Gemini 1.5 Pro 解决的，而一个是由标准的 Gemini 1.5 Pro 变体错误解决的。这些问题通常要求解题者回忆代数中的基本数学公式，并依靠它们的分段和其他数学规则得出正确答案。IT之家附上相关截图如下：

声称“媲美人类专家”，谷歌 Gemini 1.5 Pro 数学版“提智”：MATH 基准准确率 91.1%

除了问题之外，谷歌还分享了 Gemini 1.5 Pro 基准测试的重要细节。这些数据表明，在所有五项基准测试成绩中，Gemini 1.5 Pro 都领先于 GPT-4 Turbo 和亚马逊的 Claude。

谷歌表示数学衍生版 Gemini 1.5 Pro 单个样本 MATH 基准准确率为 80.6%，在对 256 个解决方案进行采样并选择一个候选答案时（rm@256），准确率达到 91.1%。

参考

Gemini 1.5: Unlocking multimodal understanding across millions of tokens of context

29 年经典游戏被攻克：谷歌 Gemini 2.5 Pro 成功通关《宝可梦蓝》

谷歌Gemini 2.5 Pro成功通关29年前的经典游戏《宝可梦蓝》，展示了AI在游戏领域的突破。谷歌CEO皮查伊兴奋宣布这一成果，引发对AI游戏能力的讨论。#AI游戏# #Gemini#

5/4/2025 7:55:19 AM

远洋

用AI把一段视频变成可视化网页，Google的新模型又卷飞了！

Google 也不知道受了什么刺激，最近在 AI 场上，好像越来越有站起来的意思了。之前我就写过 Gemini 2.5 pro，是在聊天记录可视化的文章里。被低估的谷歌？

5/8/2025 1:13:04 AM

数字生命卡兹克

自缘身在最高层？OpenAI o1 pro竞赛级评测结果新鲜出炉

AIxiv专栏是AI在线发布学术、技术内容的栏目。过去数年，AI在线AIxiv专栏接收报道了2000多篇内容，覆盖全球各大高校与企业的顶级实验室，有效促进了学术交流与传播。如果您有优秀的工作想要分享，欢迎投稿或者联系报道。

12/22/2024 4:31:00 PM

机器之心

声称“媲美人类专家”，谷歌 Gemini 1.5 Pro 数学版“提智”：MATH 基准准确率 91.1%

相关资讯

29 年经典游戏被攻克：谷歌 Gemini 2.5 Pro 成功通关《宝可梦蓝》

用AI把一段视频变成可视化网页，Google的新模型又卷飞了！

自缘身在最高层？OpenAI o1 pro竞赛级评测结果新鲜出炉