AIGC宇宙 AIGC宇宙

字节跳动豆包大模型团队开源MoE架构优化技术,训练成本节省40%

作者:远洋
2025-03-10 05:42
字节跳动豆包大模型团队官宣开源一项针对 MoE(混合专家模型)架构的关键优化技术,可将大模型训练效率提升 1.7 倍,成本节省 40%。据悉,该技术叫做 COMET,已实际应用于字节的万卡集群训练,累计帮助节省了数百万 GPU 小时训练算力。
感谢字节跳动豆包大模型团队官宣开源一项针对 MoE(混合专家模型)架构的关键优化技术,可将大模型训练效率提升 1.7 倍,成本节省 40%。据悉,该技术叫做 COMET,已实际应用于字节的万卡集群训练,累计帮助节省了数百万 GPU 小时训练算力。

AI在线注意到,早前豆包团队发布了新一代稀疏架构 UltraMem,将模型推理成本砍掉 83%,此次,又开源了 COMET,向模型训练成本出手。

目前,COMET 核心代码已开源,并计划兼容 Triton 等编译生态。

论文链接:https://arxiv.org/pdf/2502.19811

开源地址:https://github.com/bytedance/flux

相关标签:

相关资讯

DeepSeek 反思潮:AGI 既被重新审视,又被持续低估

2 月很有意思。 一、DeepSeek 反思潮在 DeepSeek 的集体反思潮中,无论是大厂内部的“AGI 创业团队”、还是 AGI 的明星创业公司,都进行了战略调整。 很显然,DeepSeek 的暴击让整个行业都进行了一次深刻的反思,值得注意的几个变化是:首先,大模型创业公司重新将技术突破提升到一个新的高度、超越产品更新成为公司战略发展的优先级。
2/28/2025 11:45:00 PM
陈彩娴

字节全新发布豆包AI视频模型:再见了Sora,你的时代过去了

刚刚,字节的火山引擎的发布会基本结束了。 我现在有点过于激动。 虽然发布会结束了,但是我觉得,一个颠覆行业的全新的起点,在这一刻,正式到来了。 字节正式发布了他们全新的两款 AI 视频模型: 豆包视频生成-PixelDance 模型和 Seaweed 模型。Seaweed 模型下次我再详细来说。这次,我想说这个豆包 PixelDance 模型,因为太屌了,屌炸了,我真的是全程惊叹着看完的。 他们正式宣布这玩意的那一刻,现场掌声雷动,我隔着屏幕都感觉快特么把房顶掀翻了。 真的,如果要给这个豆包 PixelDance
9/26/2024 1:49:52 AM

豆包推出实时语音大模型:号称中文对话断崖式领先、情商智商均在线

据介绍,豆包实时语音大模型实现了语音理解和生成一体化,实现了端到端语音对话。相比传统级联模式,在语音表现力、控制力、情绪承接方面表现惊艳,并具备低时延、对话中可随时打断等特性。
1/20/2025 4:29:51 PM
清源
  • 1