DeepSeek发布大模型训练端到端论文，展示卓越工程深度

作者：AI在线 2025-05-21 11:01

近日，DeepSeek发布了一篇关于大模型训练的最佳端到端技术论文，引发业界广泛关注。该论文全面阐述了DeepSeek在大模型研发中的技术突破，涵盖软件、硬件及混合优化方案，展现了其令人惊叹的工程深度。在**软件**层面，论文详细介绍了多头潜在注意力机制（MLA），显著降低推理过程中的内存占用;FP8混合精度训练通过低精度计算提升效率，同时保证数值稳定性;DeepEP通信库优化了专家并行(EP)通信，支持FP8低精度操作，加速MoE模型训练与推理;LogFMT对数浮点格式则通过均匀化激活分布，进一步优化计算效率。

近日，DeepSeek发布了一篇关于大模型训练的最佳端到端技术论文，引发业界广泛关注。该论文全面阐述了DeepSeek在大模型研发中的技术突破，涵盖软件、硬件及混合优化方案，展现了其令人惊叹的工程深度。

在**软件**层面，论文详细介绍了多头潜在注意力机制（MLA），显著降低推理过程中的内存占用;FP8混合精度训练通过低精度计算提升效率，同时保证数值稳定性;DeepEP通信库优化了专家并行(EP)通信，支持FP8低精度操作，加速MoE模型训练与推理;LogFMT对数浮点格式则通过均匀化激活分布，进一步优化计算效率。

在**硬件**方面，DeepSeek采用Multi-Rail Fat Tree网络拓扑，结合Ethernet RoCE交换机，极大提升了集群网络性能，降低了通信开销，确保大规模训练的高效性

**混合优化**包括IBGDA（基于InfiniBand的组数据聚合），通过高效通信内核减少跨节点MoE训练的瓶颈;3FS(Fire-Flyer文件系统)充分利用现代SSD和RDMA网络带宽，优化数据访问效率，为AI高性能计算提供强力支持。

DeepSeek通过算法、框架与硬件的协同设计，克服了内存容量、计算效率和互联带宽的瓶颈，显著降低了训练成本。其V3模型在2048块NVIDIA H800GPU上训练，仅需278.8万GPU小时，性能媲美顶级闭源模型，彰显了开源AI的巨大潜力。

这篇论文不仅展示了DeepSeek在技术创新上的领先地位，也为全球AI社区提供了宝贵的参考，推动了大模型训练的效率与可及性。DeepSeek的开放协作精神和工程实力，正引领AI技术迈向新高度。

论文地址：https://www.alphaxiv.org/abs/2505.09343

腾讯云大模型升级公告:DeepSeek-V3/ DeepSeek-R1模型将于24日正式下线

11月10日，腾讯云官网发布重要公告，宣布将对旗下部分旧版本大模型进行下线及切换升级调整，以配合其大模型技术的持续升级与迭代发布。根据公告的下线规划，腾讯云 DeepSeek-V3模型和 DeepSeek-R1模型将于北京时间 2025年11月24日00:00 起正式下线。届时，腾讯云将不再为这两个旧版本模型提供任何接入服务。

11/10/2025 4:26:09 PM

AI在线

DeepSeek-R1 登顶 Hugging Face：以10000 赞力压 150 万个模型

今日凌晨，全球最大开源平台之一 Hugging Face 的首席执行官 Clement Delangue 在社交平台发文宣布，DeepSeek-R1在 Hugging Face 上获得了超过10000个赞，成为该平台近150万个模型中最受欢迎的大模型。这一里程碑式的成就标志着 DeepSeek-R1在全球 AI 社区中的广泛认可与影响力。 DeepSeek-R1的崛起速度令人瞩目。

2/24/2025 9:30:00 AM

AI在线

腾讯云上线DeepSeek全系API接口并打通联网搜索

腾讯云宣布完成对深度求索（DeepSeek）大模型的深度整合——正式上线DeepSeek-R1和V3原版模型的API接口，并创新性接入自研大模型知识引擎，同步开放联网搜索能力。凭借腾讯云在推理并发和生成速率等方面的优化，用户可以获得更加稳定、安全、低门槛的使用体验。开发者只需在云上简单三步即可实现API接口调用，并通过大模型知识引擎提供的文档解析、拆分、embedding、多轮改写等能力，灵活构建专属的AI服务。

2/8/2025 2:09:00 PM

AI在线

DeepSeek发布大模型训练端到端论文，展示卓越工程深度

相关资讯

腾讯云大模型升级公告:DeepSeek-V3/ DeepSeek-R1模型将于24日正式下线

DeepSeek-R1 登顶 Hugging Face：以10000 赞力压 150 万个模型

腾讯云上线DeepSeek全系API接口并打通联网搜索