AIGC宇宙 AIGC宇宙

全球领先水平!MiniMax开源首个推理模型M1

不知道还有多少人记得,AI 行业的六小虎。 行业内都在说,他们已经沉寂好久了。 上一次相关的项目发布,还是前一段时间我写的 MiniMax 声音模型的更新,Speech-02。

全球领先水平!MiniMax开源首个推理模型M1

不知道还有多少人记得,AI 行业的六小虎。

行业内都在说,他们已经沉寂好久了。

上一次相关的项目发布,还是前一段时间我写的 MiniMax 声音模型的更新,Speech-02。

中国团队打造!这才是现在最强的AI声音模型!

几个月前,我写过一篇 MiniMax 的 AI 声音模型。

阅读文章 >

而前晚凌晨将近 12 点的时候,又是 MiniMax,居然在 X 上,预告了他们一整周的发布计划。

给我整不会了,不是,为什么总是选择这么阴间的时间点发布啊。。。

而第一天(也就是前天),发布了他们 MiniMax Week 的第一个项目:开源 MiniMax 首个推理模型 M1。

全球领先水平!MiniMax开源首个推理模型M1

出手就开源,还是秀的,看看跑分。

全球领先水平!MiniMax开源首个推理模型M1

我先说结论:“MiniMax M1 的上下文能力,是现在全球最厉害、最牛的、足以媲美 Gemini 2.5 Pro 的开源模型。”

我愿敬称为新一代源神。

在 AIME 2024 逻辑数学题目上(偏奥数思维)和 LiveCodeBench 编程题上、还有 SWE-bench Verified(真实世界代码补全+修改),MiniMax M1 的表现只能说中规中矩,有弱的、有强的。

而 TAU-bench(需要理解任务目标、推理动机的场景),M1 准确率 62.8%,开始媲美开源模型。

但是,最离谱的来了,最后一个,MRCR(4-needle)。

这个直接,屠榜了,真的就一瞬间,一柱擎天,直接跟 Gemini2.5Pro 肩并肩,我相信用过 Gemini 2.5 pro 的伙伴,都知道,这玩意的上下文有多离谱,而现在,MiniMax M1 作为一个开源的大模型,首次,在这个评测集上,能跟 Gemini 2.5 Pro 并驾齐驱了。

我特么。。。

很多人不知道 MRCR(4-needle)是个啥,我简单解释一下。

AI 圈之前一直有一个测上下文能力的测试,叫做“大海捞针”。

X 上一个大佬 Greg Kamradt,为了弄明白当年 Claude2.1 的 200K Token,究竟实测效果怎么样,就调用 Claude 的 API 做了个压力测试,从一段不同长度的文本中,捞出特定的信息,而这个测试,花了他 1000 美金。

这图我现在还有。

全球领先水平!MiniMax开源首个推理模型M1

Claude-2.1 当时红了一片,200K 几乎没有蛋用,巨水无比。

而那一次,Kimi 在我的文章下留言,说自己内部测了一下,全绿。

后面的故事,大家也就都知道了。

后来呢,Gemini 觉得这个大海捞针测试太初级了,于是自己搓了一个新的测试方法,叫做 Michelangelo。

全球领先水平!MiniMax开源首个推理模型M1

在这个论文里,他们提出了 Michelangelo 的几个评估任务,有 Latent List、IDK,而第三个,就是 MRCR。

全称叫 Multi-Round Co-reference Resolution,翻译成中文叫多轮共指消解,反正非常拗口。

它主要考察一个模型在处理较长的、多轮对话时,能否准确地理解和区分用户要求中具体指的是哪一次对话、哪一个内容。

比如用户和 AI 进行了一系列对话,用户要求 AI 写一些东西,比如诗、谜语、文章。在这些对话中,会刻意插入多个看起来类似的话题(比如多首关于企鹅的诗)。

然后再让 AI 回头去重新找到某一次特定的话,比如用户要求“再重复一遍第二首写企鹅的诗”,此时模型必须精准识别这个“第二首”指的具体是哪一次回答的内容。

这个事其实不简单,因为对话很长,涉及多个话题和文体,非常考验模型的上下文理解力。

全球领先水平!MiniMax开源首个推理模型M1

有些内容在主题和格式上极其相似,比如“关于企鹅的第一首诗”和“关于企鹅的第二首诗”。模型必须能清晰区分、精准回溯。

后面 OpenAI 在发 GPT-4.1 的时候,也在 blog 里面提到,自己魔改了一个难度更高的 MRCR 的评测集,用来评估模型的上下文性能。

全球领先水平!MiniMax开源首个推理模型M1

而“4-needle” 指的是,在同一段超长上下文里同时埋下 4 个“针”(关键信息片段),然后在后续对话里以交错的方式把这 4 根针全部翻出来。

在这个任务下,MiniMax-M1,吊打了一切,只跟 Gemini 2.5 pro,差了那一点点的距离。

我翻了下技术报告,M1 之所以在上下文有这个性能,核心点还是在于他们之前开源的基座模型 MiniMax-01。

得益于 MiniMax-01 Lightning Attention 线性注意力机制的应用,M1 的时间和空间复杂度随序列长度增加近似线性增长,不像传统 Transformer 那样呈平方级膨胀。

全球领先水平!MiniMax开源首个推理模型M1

因为 Lightning Attention 机制,在推理生成长度 64K token 时,FLOPs 消耗不到 DeepSeek R1 的一半。

当生成长度达到 100K token 时,M1 仅消耗其约 25%的 FLOPs。

非常的离谱。

而这个 MiniMax-M1,跟之前开源的基座模型 MiniMax-01 一样,也是 456B 参数,MoE 架构,实际激活 45.9B。

最长上下文长度为 100 万字,也就是 1M,是 DeepSeek-R1 的 8 倍。

这次开源了两个上下文长度的推理模型,40K 和 80K。

全球领先水平!MiniMax开源首个推理模型M1

80K 版本是在 40K 版本基础上进一步训练得到的增强版本。

这里注意一下,80K 和 40K 指的不是上下文长度,上下文长度是 1M,80K 和 40K 指的是 Extended Thinking 的上限。

GitHub:https://github.com/MiniMax-AI/MiniMax-M1

Hugging Face:https://huggingface.co/spaces/MiniMaxAI/MiniMax-M1

目前在 MiniMax 的官网上也上线了。

全球领先水平!MiniMax开源首个推理模型M1

网址在此,可以直接用。

网址:https://chat.minimaxi.com/

我也第一时间,上去测了一下。

我的第一个任务,就让我开了眼,因为我只是,小小的尝试一下,没想到效果,比我预期的还要好,我直接把 MiniMax-M1 的技术报告扔了进去,让它,给我逐字翻译。

全球领先水平!MiniMax开源首个推理模型M1

现在看着还比较正常对吧。

但是,马上,离谱的事情来了。

他居然把图,也给我...带出来了。。。

全球领先水平!MiniMax开源首个推理模型M1

甚至不仅有图,还有,公式。

全球领先水平!MiniMax开源首个推理模型M1

还把表格,直接拎出来翻译了。

全球领先水平!MiniMax开源首个推理模型M1

这效果,这体验,真的无敌。

虽然中间,有部分的图表丢失,还没有达到 100%的完整度,但是这个效果,也已经非常非常好了,关键的是文字,一个不落,全部都整整齐齐的给我翻译出来了。

最搞笑的是,他还自作主张,在最后,可能觉得参考文献翻译出来没什么用,直接自己给省略了。

全球领先水平!MiniMax开源首个推理模型M1

我说实话,这个参考文献,占了 5 页,对我来说,确实没啥用。。。

在翻译上,我又试了一个更有趣的场景,我扔了一个文档过去,然后说:

“翻译成中文,在括号里标注一些符合我英语水平的原文英文词汇或短语。我英语水平是大学六级。”

全球领先水平!MiniMax开源首个推理模型M1

太有意思了,这个上下文准确性,是真的牛逼。

然后我又做了一个测试,把我群里这一周的聊天记录,导出出去也扔给了 MiniMax-M1,让他把绛烨的聊天记录都找出来。

全球领先水平!MiniMax开源首个推理模型M1

他准确的识别除了绛烨的微信 ID,然后找到了他的微信号,扒出了他的所有聊天记录。。。

全球领先水平!MiniMax开源首个推理模型M1

这些链接,是真的能点的,我惊了,他还做了样式重构。。。

因为超长超准的上下文,你还可以,跟大模型玩一局,真正的文字冒险游戏,因为他不会忘记你的出身,他会记得,一切。

全球领先水平!MiniMax开源首个推理模型M1

全球领先水平!MiniMax开源首个推理模型M1

推理模型+超长且精准上下文的扩充,确实会带来,很多不一样的花活玩法。

比如我还有一个特别狠的测试。

就是我手上有一个 34 个刘慈欣老师的小说的合集,因为大刘除了世人皆知的三体之外,他其实还写过特别多的科幻中短篇小说,也特别好看。

全球领先水平!MiniMax开源首个推理模型M1

比如我最爱的《山》。

我现在,想把这些故事,安利给我的朋友们,我想,让 AI 根据这 34 个故事,每一个故事都写一段故事总结+推荐语。

这个任务,你要是扔给 DeepSeek。

你就会得到一个非常离谱的提示,DeepSeek 只阅读了 8%。。。

全球领先水平!MiniMax开源首个推理模型M1

而 MiniMax-M1,出色的完成了任务。

超长上下文的魅力,此时体现的淋漓尽致。

不过我有一个更变态的任务,还是给 MiniMax-M1 干宕机了。

就是...我让它数本草纲目里一共有多少药材= =

数了 8 分钟,最后跟我说,有 400 中种,但其实答案是 1892 种= =

全球领先水平!MiniMax开源首个推理模型M1

不过我也能理解,这个任务,确实实在是太变态了。。。

除了上下文之外,我也测了些写作、编程、数学。

写作和数学就不详细提了,写作这块中规中矩,数学的高考题实在没空完整做了,我觉得我需要抽空写一个脚本。

不过测了两道大题,目前是都对的。

最后稍微吐槽一下编程这块,就是前端审美,感觉还是有一些进步空间的。

就...有一点,不好看啊。

比如我昨天下午去参加了飞书多维表格的闭门会,会议特别有价值,我想做个可视化网页。

这是 Gemini 生成的。

全球领先水平!MiniMax开源首个推理模型M1

这是 M1 生成的。

全球领先水平!MiniMax开源首个推理模型M1

咱就是说,可以不这么直男审美的= =

总体来说,M1 模型,还是让我有一点惊喜的,他们自己的新研究,确实卷出了一些很有意思的特性,也把开源领域的模型水平,又拔高了一个层级。

还有 4 天时间,我现在有点期待 MiniMax 会继续掏出什么有意思的大货了。

以我对 MiniMax 的了解,视频模型总归要来一个的吧,已经有一段时间没更新了,Video 01-Director 已经是几个月前的事了。

你 Hailuo 02(0616)都去打榜了,那你这 5 天里,得掏一下吧。

全球领先水平!MiniMax开源首个推理模型M1

海螺的人物情绪表演、动作表演,至今依然是我心中的白月光。

极度期待 Hailuo 02,在人物表演上,会带给我什么样的震撼。

声音模型估计不发新的了,因为一个月前 Speech-02 才发。

图片和 3DMiniMax 不做,那在掏个音乐模型?这个符合 MiniMax 的气质。

这一周,希望 MiniMax 尽情撒货吧。

让 AI 的这一把火。

烧得更热烈些。

相关资讯

本命周!MiniMax M1有多猛?网友:仅用40k思考预算就干翻Gemini,实测:真·超DS!生产环境下更划算!但还不够美观

编辑 | 云昭出品 | 51CTO技术栈(微信号:blog51cto)大模型的内卷远远没有结束了。 今天凌晨,MiniMax 扔出了一记重磅炸弹——MiniMax-M1。 先来看看,M1 有多猛?
6/17/2025 2:49:18 PM
云昭

阿里开源推理模型QwQ-32B,性能比肩R1满血版!

Manus 发布之后,随之而来赶到战场的,是阿里。 关于 Manus 的深度测评:. 一手体验首款通用Agent产品Manus昨天夜里,深夜惊雷。
3/10/2025 12:38:48 AM
数字生命卡兹克

中国团队打造!这才是现在最强的AI声音模型!

几个月前,我写过一篇 MiniMax 的 AI 声音模型。 30秒完美复刻你的声音,这就是当今最强的中文AI语音克隆! 往期作者干货:中文,在 AI 世界,好像突然一夜崛起了。
5/19/2025 7:01:10 AM
数字生命卡兹克
  • 1