AIGC宇宙 AIGC宇宙

月之暗面推出新优化器Muon,计算效率大幅提升

近日,人工智能领域再度掀起波澜,月之暗面(Moonshot)宣布开源新版优化器 Muon,成功将计算效率提升至传统 AdamW 的两倍。 这个新优化器的推出恰逢 DeepSeek 即将连续开源多个代码库,引发了业内的高度关注和讨论。 Muon 优化器最初由 OpenAI 的研究者 Keller Jordan 等人在2024年提出,针对小规模模型训练时表现优异。

近日,人工智能领域再度掀起波澜,月之暗面(Moonshot)宣布开源新版优化器 Muon,成功将计算效率提升至传统 AdamW 的两倍。这个新优化器的推出恰逢 DeepSeek 即将连续开源多个代码库,引发了业内的高度关注和讨论。

image.png

Muon 优化器最初由 OpenAI 的研究者 Keller Jordan 等人在2024年提出,针对小规模模型训练时表现优异。然而,随着模型规模的扩大,原始 Muon 在性能提升上遭遇瓶颈。为此,月之暗面团队进行了深入的技术改进,主要包括添加权重衰减和一致的均方根(RMS)更新,以支持在大规模训练中应用 Muon,无需再进行超参数调整。

新的 Muon 优化器已被应用于最新推出的 Moonlight 模型,这是一种拥有3B/16B 参数的混合专家(MoE)模型,在经过5.7万亿 tokens 的训练后,性能显著提升,成为当前的 “帕累托前沿”。这一成果意味着,在相同的训练预算下,Moonlight 模型在所有性能指标上均超越其他模型。

月之暗面还开源了 Muon 的实现代码,并发布了相应的预训练和中间检查点,为研究人员的后续研究提供了宝贵资源。研究表明,Muon 优化器在训练过程中所需的 FLOPs 仅为 AdamW 的52%,这进一步验证了其在大规模语言模型训练中的高效性。

月之暗面的 Muon 优化器不仅在性能上超越了传统的优化器,而且通过开源的形式为整个 AI 领域的发展注入了新的活力。随着越来越多的研究者和开发者的参与,这一优化器有望推动人工智能技术的进一步进步。

论文地址:https://github.com/MoonshotAI/Moonlight/blob/master/Moonlight.pdf

相关资讯

月之暗面因 DeepSeek 调整工作重心?内部人士:强化学习或许会是个方向

2 月 15 日下午消息,据媒体报道,月之暗面内部已经将“持续拿到 SOTA 结果”确定为当下最重要的工作目标。2025 年,月之暗面围绕模型能力的关键方向除了继续强化多模态部分外,还会继续强化长文本推理能力。
2/15/2025 4:51:20 PM
凌辰

消息称 Kimi 大砍投放预算,DeepSeek 冲击之下月之暗面暂缓“烧钱”投广告

月之暗面近期决定大幅收缩产品投放预算,包括暂停多个安卓渠道的投放,以及第三方广告平台的合作。(界面新闻)
2/18/2025 4:41:14 PM
汪淼

Kimi大幅削减广告预算,DeepSeek崛起令月之暗面压力倍增

在国内 AI 领域,Kimi 曾是备受关注的创业产品,但随着 DeepSeek 的崛起,这一局面正悄然改变。 近日,月之暗面公司宣布将大幅削减 Kimi 的广告投放预算,暂停多个安卓渠道的推广以及与第三方广告平台的合作,这一决策显然是对 DeepSeek 迅猛发展的直接反应。 根据界面新闻的报道,DeepSeek 在短短数十天内成功吸引了3500万日活跃用户,而 Kimi 在过去一年多的时间内投入大量资金,日活跃用户却未能突破千万。
2/18/2025 5:09:00 PM
AI在线
  • 1