字节跳动豆包大模型团队开源MoE架构优化技术，训练成本节省40%

作者：远洋 2025-03-10 05:42

字节跳动豆包大模型团队官宣开源一项针对 MoE（混合专家模型）架构的关键优化技术，可将大模型训练效率提升 1.7 倍，成本节省 40%。据悉，该技术叫做 COMET，已实际应用于字节的万卡集群训练，累计帮助节省了数百万 GPU 小时训练算力。

感谢字节跳动豆包大模型团队官宣开源一项针对 MoE（混合专家模型）架构的关键优化技术，可将大模型训练效率提升 1.7 倍，成本节省 40%。据悉，该技术叫做 COMET，已实际应用于字节的万卡集群训练，累计帮助节省了数百万 GPU 小时训练算力。

AI在线注意到，早前豆包团队发布了新一代稀疏架构 UltraMem，将模型推理成本砍掉 83%，此次，又开源了 COMET，向模型训练成本出手。

目前，COMET 核心代码已开源，并计划兼容 Triton 等编译生态。

论文链接：https://arxiv.org/pdf/2502.19811

开源地址：https://github.com/bytedance/flux

DeepSeek 反思潮：AGI 既被重新审视，又被持续低估

2 月很有意思。一、DeepSeek 反思潮在 DeepSeek 的集体反思潮中，无论是大厂内部的“AGI 创业团队”、还是 AGI 的明星创业公司，都进行了战略调整。很显然，DeepSeek 的暴击让整个行业都进行了一次深刻的反思，值得注意的几个变化是：首先，大模型创业公司重新将技术突破提升到一个新的高度、超越产品更新成为公司战略发展的优先级。

2/28/2025 11:45:00 PM

陈彩娴

字节全新发布豆包AI视频模型：再见了Sora，你的时代过去了

刚刚，字节的火山引擎的发布会基本结束了。我现在有点过于激动。虽然发布会结束了，但是我觉得，一个颠覆行业的全新的起点，在这一刻，正式到来了。字节正式发布了他们全新的两款 AI 视频模型：豆包视频生成-PixelDance 模型和 Seaweed 模型。Seaweed 模型下次我再详细来说。这次，我想说这个豆包 PixelDance 模型，因为太屌了，屌炸了，我真的是全程惊叹着看完的。他们正式宣布这玩意的那一刻，现场掌声雷动，我隔着屏幕都感觉快特么把房顶掀翻了。真的，如果要给这个豆包 PixelDance

9/26/2024 1:49:52 AM

豆包推出实时语音大模型：号称中文对话断崖式领先、情商智商均在线

据介绍，豆包实时语音大模型实现了语音理解和生成一体化，实现了端到端语音对话。相比传统级联模式，在语音表现力、控制力、情绪承接方面表现惊艳，并具备低时延、对话中可随时打断等特性。

1/20/2025 4:29:51 PM

清源

字节跳动豆包大模型团队开源MoE架构优化技术，训练成本节省40%

相关资讯

DeepSeek 反思潮：AGI 既被重新审视，又被持续低估

字节全新发布豆包AI视频模型：再见了Sora，你的时代过去了

豆包推出实时语音大模型：号称中文对话断崖式领先、情商智商均在线