AIGC宇宙 AIGC宇宙

摩尔线程成功支持 DeepSeek 开源通信库 DeepEP 和并行算法 DualPipe

在 DeepSeek 开源周第四日,摩尔线程宣布已成功支持 DeepSeek 开源通信库 DeepEP 和并行算法 DualPipe,并发布相关开源代码仓库:MT-DeepEP 和 MT-DualPipe。

在 DeepSeek 开源周第四日,摩尔线程宣布已成功支持 DeepSeek 开源通信库 DeepEP 和并行算法 DualPipe,并发布相关开源代码仓库:MT-DeepEP 和 MT-DualPipe。

摩尔线程成功支持 DeepSeek 开源通信库 DeepEP 和并行算法 DualPipe

据介绍,DeepEP 是一个用于 MoE(混合专家)模型训练和推理的开源 EP(expert parallelism,专家并行)通信库,主要适用于大模型训练,特别是需要 EP 的集群训练。它通过优化通信信道的使用率,提升了训练效率。摩尔线程基于 MUSA Compute Capability 3.1 全功能 GPU 适配了 DeepEP,并支持以下特性:

  • 高效优化的 All-to-All 通信,支持 dispatch & combine

  • 支持 MTLink + GPU(MUSA Compute Capability 3.1)节点内通信

  • 训练及推理预填充阶段的高吞吐量计算核心

  • 推理解码阶段的低延迟计算核心

  • 原生支持 FP8 数据分发

  • 灵活控制 GPU 资源,实现计算与通信的高效重叠

DualPipe 是 DeepSeek-V3 提出的双向流水线并行算法,通过前向计算与后向计算阶段的计算与通信完全重叠,减少了“流水线气泡”(设备空闲等待)。摩尔线程依托深度学习框架 Torch-MUSA(已开源)和 MUSA 软件栈全方位的兼容性,实现了对 DualPipe 这一算法的支持。

目前,MT-DualPipe 可以完整接入摩尔线程 MT-Megatron 框架MT-TransformerEngine 框架(即将开源),实现 DeepSeek V3 训练流程完整复现。此外,MT-DualPipe 结合 MT-Megatron 可实现完整 DeepSeek V3 模型 MLP-FFN 分离以及 DW-DG 分离,进一步降低气泡占比,优化通信效率。同时,MT-DualPipe 与 MT-TranformerEngine 和 MT-DeepEP 的结合,可利用 MT-DeepEP 和异步通信引擎实现更高效的通信掩盖,降低对计算资源损耗。

AI在线附 Torch-MUSA 开源地址如下:

https://github.com/MooreThreads/Torch_MUSA

相关阅读:

  • 《DeepSeek 开源进度 4/5:DualPipe、EPLB 优化并行策略》

  • 《DeepSeek 开源进度 3/5:深度学习利器 DeepGEMM》

  • 《DeepSeek 开源进度 2/5:首个用于 MoE 模型训练和推理的 EP 通信库 DeepEP》

  • 《DeepSeek 代码库开源进度 1/5:为 Hopper GPU 优化的高效 MLA 解码内核 FlashMLA》

相关资讯

自有歪果仁为DeepSeek「辩经」:揭穿围绕DeepSeek的谣言

围绕 DeepSeek 的谣言实在太多了。 面对 DeepSeek R1 这个似乎「一夜之间」出现的先进大模型,全世界已经陷入了没日没夜的大讨论。 从它的模型能力是否真的先进,到是不是真的只用了 550W 进行训练,再到神秘的研究团队,每个角度都是话题。
2/5/2025 2:37:00 PM
机器之心

程序员购买OGOpenAI.com域名转向DeepSeek

最近,一名软件工程师以 “不到一顿 Chipotle 餐的价格” 购买了 OGOpenAI.com 域名,并将其重定向至中国人工智能实验室 DeepSeek 的网站。 该实验室在开源 AI 领域崭露头角,吸引了广泛的关注。 据软件工程师阿纳奈・阿罗拉(Ananay Arora)向《TechCrunch》透露,他的初衷是为了支持 DeepSeek,因为该实验室最近推出了一款名为 DeepSeek-R1的开放版本模型,声称在某些基准测试中表现优于 OpenAI 的 o1。
1/23/2025 4:32:00 PM
AI在线
testab