中国开源大模型新成员：小米推理大模型首秀！

编辑 | 云昭进入2025以来，中国大模型的开源力量一骑绝尘，甚至盖过了Llama的势头。今天，中国开源大模型，迎来新成员！ 4月30日，赶在五一前，一条“为Reasoning而生”的Xiaomi Mimo开源模型的发布消息不胫而走，发布渠道是小米6天前新注册的公众号Xiaomi Mimo。

编辑 | 云昭

进入2025以来，中国大模型的开源力量一骑绝尘，甚至盖过了Llama的势头。今天，中国开源大模型，迎来新成员！

4月30日，赶在五一前，一条“为Reasoning而生”的Xiaomi Mimo开源模型的发布消息不胫而走，发布渠道是小米6天前新注册的公众号Xiaomi Mimo。

图片

据悉，Xiaomi Mimo模型是小米公司刚成立不久的LLM-Core团队（据传去年12月底开始成立）的成果首秀。

图片

模型参数只有7B，却在代码、数学能力战胜了OpenAI的o1-mini和阿里的Qwen-32B，并展现出了超越经典开源32B模型的强化学习的潜力。

图片

短短几个月的时间，就能做出这样的成绩，属实不易。

1.那么，究竟怎样做到的呢？

据悉，MiMo推理能力的提升，得益于团队在预训练和后训练的数据和算法方面的多层组合创新努力。

具体来讲，预训练方面：就是让模型领略更多的推理模型，后训练方面重点就是打磨高效稳定的强化学习算法和框架。

具体关键做法如下：

(1)预训练

数据上，着重挖掘富推理语料，并合成约200B tokens推理数据。训练上，进行了三阶段训练，逐步提升训练难度，总训练25T tokens。

图片

(2)后训练

主打高效稳定的RL训练。比如在算法方面提出了 Test Difficulty Driven Reward 来缓解困难算法问题中的奖励稀疏问题，并引入 Easy Data Re-Sampling 策略，以稳定 RL 训练；在框架方面设计了Seamless Rollout系统，使得RL训练加速2.29倍，验证加速1.96倍。

图片

技术细节还有很多，比如使用改进的组相对策略优化（GRPO）算法进行训练，包括移除KL损失、动态采样和增加上界裁剪等策略；提出测试难度驱动的奖励机制，将测试用例按难度分组，并根据难度分配奖励；采用易数据过滤和重采样策略，提高采样效率并稳定策略更新等等，这里不再一一展开。

技术报告也已经同步在Github上，链接：https://github.com/XiaomiMiMo/MiMo/blob/main/MiMo-7B-Technical-Report.pdf感兴趣的朋友强烈建议一读。

2.全系列模型开源

MiMo-7B 已开源4个模型至HuggingFace：https://huggingface.co/XiaomiMiMo

图片

3.小米的大模型野心

小米作为移动互联网时代的佼佼者，同其他科技巨头一样，很早就在AI方面做了布局。

例如早在2016年，小米便组建起了第一支视觉AI团队。随即2017年，小米AI实验室成立，为小米在AI技术的探索和创新提供了重要平台。

但真正让小米管理班子下决心做大模型的时间点是2023年。2023年，小米成立大模型团队，将“轻量化、本地部署”定为小米大模型技术的主要突破方向。

同年8月，雷军在演讲《成长》中宣布：小米进行科技战略升级，把AI放到了核心位置，同时提出了“深耕底层技术、长期持续投入、软硬深度融合，AI全面赋能”的原则，计划未来五年在12个技术领域、99个细分赛道投入1000亿用于技术研发。

据悉，小米的AI团队规模已超过3000人，覆盖了视觉、声学、语音、NLP、知识图谱、机器学习、大模型、多模态等多个前沿方向，推动着AI技术全面赋能手机、AIoT、汽车、机器人等多个业务板块。

但进入大模型时代以后，模型底座的重要性越来越得到凸显，一方面DeepSeek R1用实力证明了千亿参数以下的模型也可以用较低成本的方式获得不亚于o1的推理效果，技术路径得到验证；另一方面，上层AI应用的同质化的确在用户忠诚度方面拉不开距离。

这也是为什么小米坚决在大模型底层做投入的原因。只有具备自己的大模型，才能让昔日的互联网王者有底气留在未来的大模型牌桌上。

Mimo团队是一个年轻的团队，而且今天发布的模型也不是市面上性能最为先进的，毕竟只有7B的大小，能PK掉Qwen-32B和o1-mini，可以说试一次不错的技术路径的验证。

这是一个很好的阶段性成果，不难预料，Mimo2对标的将会是o3、o4-mini。

这似乎是小米Mimo团队的不太遥远的“野望”！

正如小米新注册的这个公众号的slogan：Ask Mi Anything！

参考链接：https://mp.weixin.qq.com/s/Sx48m4tTTc6bJzMLU5scbQ