全球领先水平！MiniMax开源首个推理模型M1

不知道还有多少人记得，AI 行业的六小虎。行业内都在说，他们已经沉寂好久了。上一次相关的项目发布，还是前一段时间我写的 MiniMax 声音模型的更新，Speech-02。

不知道还有多少人记得，AI 行业的六小虎。

行业内都在说，他们已经沉寂好久了。

上一次相关的项目发布，还是前一段时间我写的 MiniMax 声音模型的更新，Speech-02。

中国团队打造！这才是现在最强的AI声音模型！

几个月前，我写过一篇 MiniMax 的 AI 声音模型。

阅读文章 >

而前晚凌晨将近 12 点的时候，又是 MiniMax，居然在 X 上，预告了他们一整周的发布计划。

给我整不会了，不是，为什么总是选择这么阴间的时间点发布啊。。。

而第一天（也就是前天），发布了他们 MiniMax Week 的第一个项目：开源 MiniMax 首个推理模型 M1。

全球领先水平！MiniMax开源首个推理模型M1

出手就开源，还是秀的，看看跑分。

全球领先水平！MiniMax开源首个推理模型M1

我先说结论：“MiniMax M1 的上下文能力，是现在全球最厉害、最牛的、足以媲美 Gemini 2.5 Pro 的开源模型。”

我愿敬称为新一代源神。

在 AIME 2024 逻辑数学题目上（偏奥数思维）和 LiveCodeBench 编程题上、还有 SWE-bench Verified（真实世界代码补全+修改），MiniMax M1 的表现只能说中规中矩，有弱的、有强的。

而 TAU-bench（需要理解任务目标、推理动机的场景），M1 准确率 62.8%，开始媲美开源模型。

但是，最离谱的来了，最后一个，MRCR（4-needle）。

这个直接，屠榜了，真的就一瞬间，一柱擎天，直接跟 Gemini2.5Pro 肩并肩，我相信用过 Gemini 2.5 pro 的伙伴，都知道，这玩意的上下文有多离谱，而现在，MiniMax M1 作为一个开源的大模型，首次，在这个评测集上，能跟 Gemini 2.5 Pro 并驾齐驱了。

我特么。。。

很多人不知道 MRCR（4-needle）是个啥，我简单解释一下。

AI 圈之前一直有一个测上下文能力的测试，叫做“大海捞针”。

X 上一个大佬 Greg Kamradt，为了弄明白当年 Claude2.1 的 200K Token，究竟实测效果怎么样，就调用 Claude 的 API 做了个压力测试，从一段不同长度的文本中，捞出特定的信息，而这个测试，花了他 1000 美金。

这图我现在还有。

全球领先水平！MiniMax开源首个推理模型M1

Claude-2.1 当时红了一片，200K 几乎没有蛋用，巨水无比。

而那一次，Kimi 在我的文章下留言，说自己内部测了一下，全绿。

后面的故事，大家也就都知道了。

后来呢，Gemini 觉得这个大海捞针测试太初级了，于是自己搓了一个新的测试方法，叫做 Michelangelo。

全球领先水平！MiniMax开源首个推理模型M1

在这个论文里，他们提出了 Michelangelo 的几个评估任务，有 Latent List、IDK，而第三个，就是 MRCR。

全称叫 Multi-Round Co-reference Resolution，翻译成中文叫多轮共指消解，反正非常拗口。

它主要考察一个模型在处理较长的、多轮对话时，能否准确地理解和区分用户要求中具体指的是哪一次对话、哪一个内容。

比如用户和 AI 进行了一系列对话，用户要求 AI 写一些东西，比如诗、谜语、文章。在这些对话中，会刻意插入多个看起来类似的话题（比如多首关于企鹅的诗）。

然后再让 AI 回头去重新找到某一次特定的话，比如用户要求“再重复一遍第二首写企鹅的诗”，此时模型必须精准识别这个“第二首”指的具体是哪一次回答的内容。

这个事其实不简单，因为对话很长，涉及多个话题和文体，非常考验模型的上下文理解力。

全球领先水平！MiniMax开源首个推理模型M1

有些内容在主题和格式上极其相似，比如“关于企鹅的第一首诗”和“关于企鹅的第二首诗”。模型必须能清晰区分、精准回溯。

后面 OpenAI 在发 GPT-4.1 的时候，也在 blog 里面提到，自己魔改了一个难度更高的 MRCR 的评测集，用来评估模型的上下文性能。

全球领先水平！MiniMax开源首个推理模型M1

而“4-needle” 指的是，在同一段超长上下文里同时埋下 4 个“针”（关键信息片段），然后在后续对话里以交错的方式把这 4 根针全部翻出来。

在这个任务下，MiniMax-M1，吊打了一切，只跟 Gemini 2.5 pro，差了那一点点的距离。

我翻了下技术报告，M1 之所以在上下文有这个性能，核心点还是在于他们之前开源的基座模型 MiniMax-01。

得益于 MiniMax-01 Lightning Attention 线性注意力机制的应用，M1 的时间和空间复杂度随序列长度增加近似线性增长，不像传统 Transformer 那样呈平方级膨胀。

全球领先水平！MiniMax开源首个推理模型M1

因为 Lightning Attention 机制，在推理生成长度 64K token 时，FLOPs 消耗不到 DeepSeek R1 的一半。

当生成长度达到 100K token 时，M1 仅消耗其约 25%的 FLOPs。

非常的离谱。

而这个 MiniMax-M1，跟之前开源的基座模型 MiniMax-01 一样，也是 456B 参数，MoE 架构，实际激活 45.9B。

最长上下文长度为 100 万字，也就是 1M，是 DeepSeek-R1 的 8 倍。

这次开源了两个上下文长度的推理模型，40K 和 80K。

全球领先水平！MiniMax开源首个推理模型M1

80K 版本是在 40K 版本基础上进一步训练得到的增强版本。

这里注意一下，80K 和 40K 指的不是上下文长度，上下文长度是 1M，80K 和 40K 指的是 Extended Thinking 的上限。

GitHub：https://github.com/MiniMax-AI/MiniMax-M1

Hugging Face：https://huggingface.co/spaces/MiniMaxAI/MiniMax-M1

目前在 MiniMax 的官网上也上线了。

全球领先水平！MiniMax开源首个推理模型M1

网址在此，可以直接用。

网址：https://chat.minimaxi.com/

我也第一时间，上去测了一下。

我的第一个任务，就让我开了眼，因为我只是，小小的尝试一下，没想到效果，比我预期的还要好，我直接把 MiniMax-M1 的技术报告扔了进去，让它，给我逐字翻译。

全球领先水平！MiniMax开源首个推理模型M1

现在看着还比较正常对吧。

但是，马上，离谱的事情来了。

他居然把图，也给我...带出来了。。。

全球领先水平！MiniMax开源首个推理模型M1

甚至不仅有图，还有，公式。

全球领先水平！MiniMax开源首个推理模型M1

还把表格，直接拎出来翻译了。

全球领先水平！MiniMax开源首个推理模型M1

这效果，这体验，真的无敌。

虽然中间，有部分的图表丢失，还没有达到 100%的完整度，但是这个效果，也已经非常非常好了，关键的是文字，一个不落，全部都整整齐齐的给我翻译出来了。

最搞笑的是，他还自作主张，在最后，可能觉得参考文献翻译出来没什么用，直接自己给省略了。

全球领先水平！MiniMax开源首个推理模型M1

我说实话，这个参考文献，占了 5 页，对我来说，确实没啥用。。。

在翻译上，我又试了一个更有趣的场景，我扔了一个文档过去，然后说：

“翻译成中文，在括号里标注一些符合我英语水平的原文英文词汇或短语。我英语水平是大学六级。”

全球领先水平！MiniMax开源首个推理模型M1

太有意思了，这个上下文准确性，是真的牛逼。

然后我又做了一个测试，把我群里这一周的聊天记录，导出出去也扔给了 MiniMax-M1，让他把绛烨的聊天记录都找出来。

全球领先水平！MiniMax开源首个推理模型M1

他准确的识别除了绛烨的微信 ID，然后找到了他的微信号，扒出了他的所有聊天记录。。。

全球领先水平！MiniMax开源首个推理模型M1

这些链接，是真的能点的，我惊了，他还做了样式重构。。。

因为超长超准的上下文，你还可以，跟大模型玩一局，真正的文字冒险游戏，因为他不会忘记你的出身，他会记得，一切。

全球领先水平！MiniMax开源首个推理模型M1

推理模型+超长且精准上下文的扩充，确实会带来，很多不一样的花活玩法。

比如我还有一个特别狠的测试。

就是我手上有一个 34 个刘慈欣老师的小说的合集，因为大刘除了世人皆知的三体之外，他其实还写过特别多的科幻中短篇小说，也特别好看。

全球领先水平！MiniMax开源首个推理模型M1

比如我最爱的《山》。

我现在，想把这些故事，安利给我的朋友们，我想，让 AI 根据这 34 个故事，每一个故事都写一段故事总结+推荐语。

这个任务，你要是扔给 DeepSeek。

你就会得到一个非常离谱的提示，DeepSeek 只阅读了 8%。。。

全球领先水平！MiniMax开源首个推理模型M1

而 MiniMax-M1，出色的完成了任务。

超长上下文的魅力，此时体现的淋漓尽致。

不过我有一个更变态的任务，还是给 MiniMax-M1 干宕机了。

就是...我让它数本草纲目里一共有多少药材= =

数了 8 分钟，最后跟我说，有 400 中种，但其实答案是 1892 种= =

全球领先水平！MiniMax开源首个推理模型M1

不过我也能理解，这个任务，确实实在是太变态了。。。

除了上下文之外，我也测了些写作、编程、数学。

写作和数学就不详细提了，写作这块中规中矩，数学的高考题实在没空完整做了，我觉得我需要抽空写一个脚本。

不过测了两道大题，目前是都对的。

最后稍微吐槽一下编程这块，就是前端审美，感觉还是有一些进步空间的。

就...有一点，不好看啊。

比如我昨天下午去参加了飞书多维表格的闭门会，会议特别有价值，我想做个可视化网页。

这是 Gemini 生成的。

全球领先水平！MiniMax开源首个推理模型M1

这是 M1 生成的。

全球领先水平！MiniMax开源首个推理模型M1

咱就是说，可以不这么直男审美的= =

总体来说，M1 模型，还是让我有一点惊喜的，他们自己的新研究，确实卷出了一些很有意思的特性，也把开源领域的模型水平，又拔高了一个层级。

还有 4 天时间，我现在有点期待 MiniMax 会继续掏出什么有意思的大货了。

以我对 MiniMax 的了解，视频模型总归要来一个的吧，已经有一段时间没更新了，Video 01-Director 已经是几个月前的事了。

你 Hailuo 02（0616）都去打榜了，那你这 5 天里，得掏一下吧。

全球领先水平！MiniMax开源首个推理模型M1

海螺的人物情绪表演、动作表演，至今依然是我心中的白月光。

极度期待 Hailuo 02，在人物表演上，会带给我什么样的震撼。

声音模型估计不发新的了，因为一个月前 Speech-02 才发。

图片和 3DMiniMax 不做，那在掏个音乐模型？这个符合 MiniMax 的气质。

这一周，希望 MiniMax 尽情撒货吧。

让 AI 的这一把火。

烧得更热烈些。

全球领先水平！MiniMax开源首个推理模型M1

中国团队打造！这才是现在最强的AI声音模型！

相关资讯

本命周！MiniMax M1有多猛？网友：仅用40k思考预算就干翻Gemini，实测：真·超DS！生产环境下更划算！但还不够美观

阿里开源推理模型QwQ-32B，性能比肩R1满血版！

中国团队打造！这才是现在最强的AI声音模型！