AIGC宇宙 AIGC宇宙

陶哲轩:o3-mini纠正了我一个数学错误,十分钟解决原本一小时才能完成的题目

大模型持续震惊科学家! 以往一小时才能完成的代码,现在十分钟就能实现「生成、测试到得出结果」。 “大模型推广大神”陶哲轩又来分享他的亲测体验了。

大模型持续震惊科学家!

以往一小时才能完成的代码,现在十分钟就能实现「生成、测试到得出结果」。

“大模型推广大神”陶哲轩又来分享他的亲测体验了。

这一次o3-mini一眼识破并且纠正了他的一个错误,然后在它的帮助下快速完成了一道数学题的解答。

图片

而在另一边,CMU数学教授、美国奥数国家队前掌舵人罗博深发现,GPT-o1在卡内基梅隆大学数学本科考试中获得满分,而且每道题的解题时间不超过一分钟。

图片

关键是,他专门设计的是全新的非标准问题,这些问题都是开卷的。

而普通学生的成绩分布be like:

图片

陶哲轩:o3-mini纠正了我的错误

事情是这样的。

他在MathOverflow上遇到了这样一道题,由于答案不是封闭形式的,所以他想近似地模拟他。

图片

首先,他要求o3-mini-high提供一些代码。结果在思考一分12秒之后,首先声明他试图计算的数量是无限的,但其实事实并非如此。此处o3-mini犯了个小错误。

图片

不过它仍然提供了数值代码,确实粗略地近似了陶哲轩想要的数量(精确到小数点后一位)。

图片

那时它意识到应该使用马尔可夫链理论来获得更精确的答案,于是先向 o3-mini-high询问理论公式,然后编写代码来计算结果。

有趣的是,它能够纠正提示中的一个基本错误:把min写成了max

图片

并且给了完美的代码,然后陶哲轩在此基础上对这一问题给出更精确的数值答案。

图片

对此,陶哲轩的评价是:

总的来说,o3提供了相当不错的帮助;它犯了一个错误,我纠正了它,但我也犯了一个错误,它纠正了它。

而且以前我自己可能需要花一个小时的时间才能完成的代码,在大约十分钟内就生成、测试、修改并报告出来了。

也就在一周前,陶哲轩才点赞o3-mini不久:

重建图论中一个标准(专家级)结果的证明,o3-mini是完全可以hold住的。

大模型持续震惊数学家

而在另一边,罗博深也被o1的数学能力震惊到了。

他日常给本科生设计了五道数学题,分别涉及差分方程、线性代数、组合数学、数论、斐波那契数列性质等内容。

结果每道题均在一分钟内解决,甚至部分思考时间仅在20秒以内

图片图片

而在班级上考满分的人当中,最快的人只用了30分钟

最后,他额外算了算这背后的成本。

已知GPT-o1每百万字的输出成本仅为60美元,这意味着每个问题的解决成本约为5美分。

对于大多数人无法在1小时内完成的工作来说,总共花费约25美分。

对此,他忍不住惊呼:Oh my goodness.让我觉得已经接近「能够从事中等非程序性技术工作」的临界点。

值得一提的是,前两天其实还是GPT-4发布的两周年。两年之间,大模型的数学能力已经有了质的变化——各种数学难题都轻松拿下。

比如挑战最难本科数学考试,o1 Pro只需36分钟16秒交卷。

最新的o3系列,在最难数学测试的EpochAI Frontier Math(包含最新未公开前沿题目)中,比之前SOTA从2分提升到25分。

人类专业数学家解决其中一道题目也要花费数小时到数天,现在o3只需要思考几分钟了。

图片

眼看着数学难题一一被挑战让数学家们惊呆,大模型下一个可能被攻克的领域会是哪

相关资讯

让大模型合成检查器:UIUC团队挖出Linux内核90余个长期潜伏漏洞

这篇论文的作者来自伊利诺伊大学香槟分校(UIUC)张令明老师团队,包括:杨晨源,四年级博士生,研究方向是基于 AI 大模型的软件系统可靠性保障;赵子杰,四年级博士生,研究方向是模糊测试等软件工程技术与 AI 大模型的结合;谢子晨,科研实习生,目前为弗吉尼亚大学一年级博士生;李皓宇,科研实习生,目前为 UIUC 一年级博士生。 张令明老师现任 UIUC 计算机系副教授,主要从事软件工程、机器学习、代码大模型的相关研究。 想象一下,大语言模型不仅能生成代码,还能通过静态分析看代码找漏洞:在千万行的 Linux 内核代码中挖出 92 个长期潜伏的真实缺陷 —— 这也可能是 LLM 首次在 Linux 内核中发现如此多的实际漏洞。
9/28/2025 9:13:00 AM

Cursor发布首个编程大模型!代码生成250tokens/秒,强化学习+MoE架构

Cursor的首个编码模型,刚刚发布了! 最新进展,Cursor 2.0正式发布,并且首次搭载了「内部」大模型。 没错,不是GPT、不是Claude,如今模型栏多了个新名字——Composer。
10/30/2025 9:13:55 AM

最真实大模型编程评估!字节开源FullStack Bench,首次全覆盖超11类现实编程场景

代码大模型越来越卷,评估AI编程水平的“考卷”也被迫升级。 12月5日,字节豆包大模型团队开源最新代码大模型评估基准FullStack Bench,在业界首次囊括编程全栈技术中超11类真实场景,覆盖16种编程语言,包含3374个问题,相比此前基准,可以更有效地评估大模型在现实世界中的代码开发能力。 代码评估基准是衡量大模型编程能力的标准工具,也是推动模型优化的关键驱动力。
12/5/2024 3:46:00 PM
新闻助手
  • 1