DeepSeek-V3：硬件与模型的完美统协，奏响 AI 高效新乐章

大家好，我是肆〇柒。 DeepSeek-V3 曾经一度备受全球瞩目，从 V3 发布至今，这一开源模型已经在众多企业场景中成功落地。然而，在落地过程中，由于其复杂的工程细节，相信许多团队也遇到了不少挑战。

大家好，我是肆〇柒。DeepSeek-V3 曾经一度备受全球瞩目，从 V3 发布至今，这一开源模型已经在众多企业场景中成功落地。然而，在落地过程中，由于其复杂的工程细节，相信许多团队也遇到了不少挑战。刚好，我最近读到一篇论文——《Insights into DeepSeek-V3: Scaling Challenges and Reflections on Hardware for AI Architectures》。这篇论文相比于 DeepSeek 的技术报告，更加深入探讨了 DeepSeek-V3 在硬件与模型协同设计方面的创新实践，不仅揭示了 DeepSeek-V3 如何巧妙应对大规模语言模型（LLM）在内存容量、计算效率和通信带宽等方面的挑战，还为我们展示了未来 AI 硬件架构发展的新方向。

这些内容将有助于大家更加深刻地理解 DeepSeek 的工程优化细节，从而在进行私有化落地时，能够结合具体业务场景，更好地理解并解决遇到的问题。下面就一起来了解一下。

DeepSeek-V3 的模型架构设计

Multi-head Latent Attention（MLA）

Multi-head Latent Attention（MLA）是 DeepSeek-V3 中一项关键的创新技术，它巧妙地解决了传统注意力机制在处理长序列和多轮对话时面临的内存瓶颈问题。在传统的 Transformer 架构中，注意力机制需要存储大量的 Key-Value（KV）缓存，以便在生成后续 token 时进行计算。然而，这种方法在内存消耗方面十分巨大，尤其是当处理长序列或需要多轮对话交互时，KV 缓存的存储需求会呈指数级增长，严重限制了模型的扩展性和推理速度。

MLA 的核心思想是通过一个投影矩阵，将所有注意力头的 KV 表示压缩到一个更小的潜在向量中。这个潜在向量不仅能够保留原始 KV 缓存的关键信息，还能在很大程度上减少内存占用。在推理过程中，只需要缓存这个潜在向量，就可以在后续的计算中重建出所需的 KV 信息，从而大大降低了内存消耗。

MLA 的实现原理可以表示为如下公式：

其中，表示潜在向量，是投影矩阵，是输入隐藏状态。通过这种方式，MLA 将每个注意力头的 KV 表示压缩到一个共享的潜在空间中。在解码阶段，根据潜在向量重建 KV 缓存的公式为：

在这里，和分别是重建 Key 和 Value 的投影矩阵。通过这种潜在向量的压缩与重建机制，MLA 在保证模型性能的同时，显著减少了内存占用。

如图表所示，在与其他模型的对比中，DeepSeek-V3 的 MLA 技术展现出了卓越的内存压缩效果。

Model	KV Cache Per Token	Multiplier
DeepSeek-V3 (MLA)	70.272 KB	1x
Qwen-2.5 72B (GQA)	327.680 KB	4.66x
LLaMA-3.1 405B (GQA)	516.096 KB	7.28x

例如，与 LLaMA-3.1 405B 相比，DeepSeek-V3 的 KV 缓存大小仅为后者的左右，这对于需要处理长序列和多轮对话的场景来说，无疑是一个巨大的优势。这不仅使得模型能够处理更长的上下文，还大大提高了推理速度，降低了对硬件内存资源的要求。

DeepSeek-V3 的基本架构上图展示了 DeepSeek-V3 的基本架构，其中融合了 DeepSeek-V2 的 MLA 和 DeepSeekMoE 架构，并引入了多 token 预测模块和 FP8 混合精度训练，以提升推理和训练效率。图中还标明了不同部分计算所使用的精度，所有组件的输入和输出均采用 BF16。

Mixture of Experts（MoE）架构的原理与协同

Mixture of Experts（MoE）架构是一种稀疏计算模型，它通过在不同的计算任务中选择性地激活不同的专家网络，从而实现模型规模的扩展，同时避免了计算资源的浪费。DeepSeek-V3 中的 MoE 架构采用了先进的门控机制和专家选择策略，以确保在每个 token 的处理过程中，只有最相关的专家网络被激活。

MoE 架构的算法逻辑可以分为以下几个关键步骤：

1. 专家选择（Expert Selection）

在 MoE 架构中，输入数据首先被传递到一个门控网络（Gating Network）。门控网络的作用是根据输入数据的特征，计算出每个专家网络的权重分数。这些权重分数反映了每个专家网络对当前输入数据的适用性。具体来说，门控网络会输出一个概率分布，表示每个专家网络被选中的概率。通常，门控网络会采用一个 softmax 函数来生成这些概率值。例如，对于一个包含 ( N ) 个专家网络的 MoE 架构，门控网络的输出可以表示为：

其中，是输入数据，和是门控网络的权重和偏置参数，是门控网络的输出，表示每个专家网络的权重分数。

在实际应用中，通常会选择权重分数最高的前个专家网络进行激活。这种方法被称为“Top-K 选择”。例如，如果，则每个输入数据只会激活权重分数最高的两个专家网络。这种稀疏激活机制大大减少了计算量，同时保留了模型的多样性。

2. 专家处理（Expert Processing）

一旦选定了要激活的专家网络，这些专家网络将对输入数据进行处理。每个专家网络是一个独立的神经网络，通常具有相同的架构，但权重不同。专家网络的输出可以表示为：

其中，表示第个专家网络的函数，是第个专家网络的输出。每个专家网络的输出都是对输入数据的一种解释或表示。

3. 结果融合（Result Fusion）

在所有被激活的专家网络完成处理后，需要将它们的输出结果进行融合，以生成最终的输出。融合过程通常基于门控网络计算出的权重分数进行加权求和。具体来说，最终输出可以表示为：

其中，是第个专家网络的权重分数，是第个专家网络的输出。这种加权求和的方式确保了每个专家网络的贡献与其重要性成正比。

这种架构与 Multi-head Latent Attention（MLA）协同工作，共同优化了计算 - 通信权衡。MLA 在注意力机制层面减少了内存消耗和通信开销，而 MoE 则通过稀疏激活的方式，降低了计算复杂度和通信压力。两者相互配合，使得 DeepSeek-V3 在大规模训练和推理过程中，能够更高效地利用硬件资源，实现性能的显著提升。

从实验数据可以看出，MoE 架构在参数规模和计算成本方面具有明显的优势。例如，DeepSeek-V3 的参数规模达到了 671B，但每个 token 激活的计算量仅为 37B，远低于密集模型在相同参数规模下的计算需求。这表明 MoE 架构能够在保持模型性能的同时，大幅降低计算资源的消耗，提高模型的性价比和可扩展性。

下表列出了 MoE 和密集模型的训练计算成本对比，在序列长度为 4096 的情况下，DeepSeek-V3 的训练计算成本仅为每 token 250 GFLOPS，而 Qwen-72B 密集模型和 LLaMA-405B 密集模型的训练计算成本分别高达每 token 394 GFLOPS 和 2448 GFLOPS。

模型名称	训练计算成本 (GFLOPS/Token)
DeepSeek-V3 MoE	250
Qwen-72B Dense	394
LLaMA-405B Dense	2448

FP8 混合精度训练

FP8 混合精度训练是 DeepSeek-V3 提升训练效率和模型性能的又一重要创新。与传统的 FP16 和 FP32 精度训练相比，FP8 在内存占用和计算速度方面具有显著的优势。然而，由于其较低的精度，FP8 训练也面临着数值稳定性和模型收敛性等挑战。

为了充分发挥 FP8 的优势，同时保证训练的稳定性，DeepSeek-V3 采用了以下关键策略：

1. 高精度累积 ：在计算梯度时，采用 FP32 精度进行累积，以避免数值下溢和上溢问题，确保训练过程的稳定性。
2. 细粒度量化 ：对激活和模型权重进行细粒度量化，采用 1x128 的 tile-wise 量化和 128x128 的 block-wise 量化策略，以减少量化误差，提高模型精度。
3. 张量核心优化 ：充分利用 NVIDIA GPU 的张量核心（Tensor Cores），实现 FP8 矩阵乘法的高效计算，加速训练过程。

从实验数据来看，FP8 混合精度训练在 DeepSeek-V3 中取得了良好的平衡效果。与 FP16 相比，FP8 能够将内存占用减少约 50%，同时在训练速度上也有显著提升。尽管在某些情况下可能会出现精度损失，但通过上述优化策略，DeepSeek-V3 将相对精度损失控制在了 0.25% 以内，几乎不会对模型的最终性能产生明显影响。这表明 FP8 混合精度训练是一种极具潜力的训练方法，能够在保证模型质量的前提下，大幅提高训练效率，降低硬件成本。

内存效率优化的实践

低精度模型

低精度模型，如 FP8，在内存消耗方面的表现令人瞩目。与传统的 BF16 模型相比，FP8 将内存占用减少了一半，这对于缓解 AI 内存墙问题具有重要意义。在现代 AI 系统中，内存资源往往成为限制模型规模和性能的关键因素。通过采用低精度模型，可以在不显著降低模型性能的情况下，大幅度减少内存占用，提高系统的整体效率。

然而，低精度模型的实现并非一帆风顺。它需要在硬件和软件层面进行深入的优化和协调。在硬件方面，需要确保 GPU 等计算设备能够高效地支持 FP8 等低精度计算。例如，NVIDIA 的 Hopper 架构 GPU 就对 FP8 计算提供了一定的支持，但这仍然需要软件层面的进一步优化。在软件方面，需要开发专门的量化算法和训练框架，以确保低精度模型能够在训练和推理过程中保持良好的性能。

此外，低精度模型在不同硬件平台上的适用性也需要仔细评估。例如，在某些对精度要求较高的应用场景中，可能需要对低精度模型进行进一步的优化和调整，以满足特定的业务需求。同时，还需要考虑不同硬件平台的内存架构和计算能力，以充分发挥低精度模型的优势。

下表对比了 DeepSeek-V3 与其他模型的 KV 缓存大小，在 BF16 精度下，DeepSeek-V3 的 MLA 技术显著减少了 KV 缓存占用。DeepSeek-V3 每个 token 仅需 70.272 KB，而 Qwen-2.5 72B 和 LLaMA-3.1 405B 分别需要 327.680 KB 和 516.096 KB。

模型名称	KV 缓存大小 (KB/Token)	缩小倍数
DeepSeek-V3 (MLA)	70.272	1x
Qwen-2.5 72B (GQA)	327.680	4.66x
LLaMA-3.1 405B (GQA)	516.096	7.28x

MLA 压缩 KV 缓存的效果量化

如论文中所述，MLA 技术在压缩 KV 缓存方面取得了显著的成果。通过将 KV 表示压缩到潜在向量中，MLA 大大减少了 KV 缓存的存储需求。具体来说，DeepSeek-V3 的 MLA 实现将 KV 缓存大小降低到了每个 token 仅需 70.272 KB，而相比之下，Qwen-2.5 72B（采用 GQA 技术）的每个 token KV 缓存大小为 327.680 KB，LLaMA-3.1 405B（同样采用 GQA 技术）的每个 token KV 缓存大小更是高达 516.096 KB。这表明 MLA 在 KV 缓存压缩方面具有明显的优势。

这种 KV 缓存的压缩对于模型的性能有着深远的影响。首先，在推理速度方面，较小的 KV 缓存意味着更少的内存访问和数据传输，从而降低了推理延迟，提高了推理速度。其次，在内存占用方面，KV 缓存的压缩使得模型能够在有限的内存资源中处理更长的序列和更大的批量，提高了系统的整体吞吐量。此外，对于需要在资源受限环境中运行的场景，如移动端或嵌入式设备，MLA 的压缩效果使得大型语言模型的部署成为可能，大大拓展了模型的应用范围。

其他内存优化方法的对比与应用

除了 MLA 和低精度模型之外，还有其他一些内存优化方法在 AI 领域得到了广泛的研究和应用。例如，共享 KV（如 Grouped-Query Attention，GQA；Multi-Query Attention，MQA）通过让多个注意力头共享同一组 KV 对，显著减少了 KV 存储需求。这种方法在不增加太多计算复杂度的情况下，实现了内存占用的有效降低，适用于多种 Transformer 架构的变体。

窗口化 KV（Windowed KV）则针对长序列场景，只在缓存中保留一个滑动窗口内的 KV 对，从而减少了存储需求。然而，这种方法可能会对长序列的推理能力产生一定的影响，因为它丢弃了窗口之外的信息。在实际应用中，需要根据具体的业务场景和模型需求，权衡窗口大小与推理性能之间的关系。

量化压缩是一种更为通用的内存优化方法，它通过使用低比特表示（如 4 位或 8 位量化）来减少 KV 对的存储需求。这种方法可以在保持模型性能基本不变的前提下，显著降低内存占用。量化压缩技术的关键在于如何设计高效的量化算法，以最小化量化误差对模型性能的影响。

在实际应用中，选择合适的内存优化方法需要综合考虑多种因素，包括模型的规模、序列长度、硬件资源限制以及业务场景对推理性能和精度的要求等。例如，在需要处理长序列且对内存占用敏感的场景中，可以优先考虑 MLA 和窗口化 KV 的结合应用；而在对推理速度要求较高且硬件资源相对有限的场景中，低精度模型和量化压缩技术则可能更为合适。

降低成本与提高推理速度的策略

MoE 模型的成本效益分析

MoE 模型在降低训练成本方面展现出了巨大的优势。与传统的密集模型相比，MoE 模型通过稀疏激活的方式，在保持模型性能的同时，大幅减少了计算资源的消耗。以 DeepSeek-V3 为例，其参数规模达到了 671B，但每个 token 激活的计算量仅为 37B，而相比之下，同样规模的密集模型（如 405B 的 LLaMA-3.1）在训练过程中需要激活所有的参数，导致计算成本急剧上升。

模型名称	训练计算成本 (GFLOPS/Token)
DeepSeek-V3 MoE	250
Qwen-72B Dense	394
LLaMA-405B Dense	2448

从上表中的数据可以看出，DeepSeek-V3 的训练计算成本为每 token 250 GFLOPS，而 72B 的 Qwen-72B 密集模型的训练计算成本为每 token 394 GFLOPS，405B 的 LLaMA-405B 密集模型的训练计算成本更是高达每 token 2448 GFLOPS。这表明 MoE 模型在大规模训练中具有显著的经济效益，能够在相同的硬件资源下实现更大的模型规模和更高的性能。

这种成本效益的提升不仅有助于降低大规模模型训练的门槛，还使得更多的研究团队和企业能够参与到 AI 技术的创新中来。同时，随着模型规模的扩大和性能的提升，MoE 模型也能够为各种复杂的应用场景提供更强大的支持，推动 AI 技术在更多领域的广泛应用。

推理速度的影响因素分析

推理速度是衡量 AI 模型性能的重要指标之一，它直接关系到用户体验和系统的实际可用性。推理速度的影响因素可以主要从系统整体吞吐量和单次请求延迟两个维度进行分析。

从系统整体吞吐量的角度来看，提高吞吐量的关键在于充分利用硬件资源，减少计算和通信的空闲时间。DeepSeek-V3 通过采用双微批处理重叠策略，巧妙地将通信延迟与计算过程重叠起来，使得 GPU 能够始终保持高利用率。例如，在线推理系统中，通过将 MLA 和 MoE 的计算过程分解为两个阶段，并在两个微批处理之间进行交替计算和通信，实现了计算与通信的无缝衔接。这种策略不仅提高了系统的整体吞吐量，还降低了推理延迟，为用户提供更流畅的服务体验。

在单次请求延迟方面，影响因素主要包括模型的计算复杂度、KV 缓存的访问速度以及通信带宽等。为了降低单次请求延迟，需要对模型架构进行优化，减少不必要的计算和数据传输。例如，通过采用 MLA 技术，减少 KV 缓存的存储需求和访问时间；通过优化 MoE 架构中的专家选择和通信策略，降低通信开销；以及通过使用低精度计算和量化压缩技术，加速计算过程。

此外，推理速度还受到硬件性能的直接影响。高性能的 GPU、高速的内存和通信接口等硬件设施能够显著提高推理速度。因此，在设计 AI 系统时，需要综合考虑软件优化和硬件选型，以实现推理速度的最大化。

Multi-Token Prediction（MTP）技术的实证

Multi-Token Prediction（MTP）技术是 DeepSeek-V3 提高推理速度的一项创新性尝试。传统的自回归模型在推理过程中通常一次只生成一个 token，这导致了推理过程中的顺序瓶颈，限制了推理速度的提升。而 MTP 框架通过在每次解码步骤中同时生成多个候选 token，并在并行验证这些 token，从而显著提高了推理效率。

MTP 的实现原理可以概括为以下几个步骤：

多 token 预测 ：在推理过程中，模型不仅预测下一个 token，还会预测接下来的多个 token，生成多个候选序列。
并行验证 ：通过轻量级的网络结构对生成的候选序列进行快速验证，筛选出最有可能的序列。
结果融合 ：将验证后的序列进行融合，得到最终的输出结果。

实际测试数据表明，MTP 技术在提高推理吞吐量方面具有显著的效果。例如，在预测第二个后续 token 时，MTP 模块的接受率能够达到 80% - 90%，使得生成吞吐量（TPS）相比没有 MTP 模块的场景提高了 1.8 倍。这表明 MTP 技术在一定程度上能够有效缓解传统自回归模型在推理速度方面的限制，为实现更快速、更高效的 AI 服务提供了一种新的解决方案。

然而，MTP 技术也存在一定的局限性。由于其需要同时处理多个候选序列，可能会导致计算资源的增加和模型复杂度的提升。在某些对延迟要求极高的场景中，MTP 的并行验证过程可能会引入额外的延迟。因此，在实际应用中，需要根据具体的业务需求和硬件条件，合理选择和调整 MTP 技术的参数和策略，以实现最佳的推理性能。

网络拓扑优化的探索

Multi-Plane Network Topology 的优势与实现

Multi-Plane Network Topology 是 DeepSeek-V3 在网络通信优化方面的重要创新之一。传统的网络拓扑结构在处理大规模集群通信时，往往会面临网络拥塞、通信延迟高以及扩展性差等问题。而 Multi-Plane Network Topology 通过将网络划分为多个独立的平面，并在每个平面中采用多层 Fat-Tree 架构，有效地解决了这些问题。

八平面双层胖树扩展网络：每对GPU和IB网卡属于一个网络平面。跨平面流量必须使用另一块网卡以及PCIe或NVLink进行节点内转发

DeepSeek-V3 的 Multi-Plane Network Topology 具有以下优势：

故障隔离与容错性 ：由于每个网络平面独立运行，一个平面中的故障不会影响其他平面的正常工作，大大提高了系统的可靠性。例如，当某个平面中的交换机或链路出现故障时，其他平面仍然可以继续工作，确保了整个集群的稳定运行。
成本效率 ：与传统的三层 Fat-Tree 拓扑相比，Multi-Plane Network Topology 能够在保持成本相近的情况下，支持更多的计算节点。如论文中的表 3 所示，采用 MPFT（Multi-Plane Fat-Tree）拓扑的网络在支持 16,384 个 GPU 时，其总成本与支持 10k 端点的两层 Fat-Tree（FT2）网络成本相近，但能够提供更强大的扩展能力和通信性能。
低延迟与高带宽 ：通过优化网络拓扑结构和通信协议，Multi-Plane Network Topology 实现了更低的通信延迟和更高的带宽利用率。这在需要频繁进行大规模数据传输和同步的 AI 训练和推理场景中，能够显著提高系统的整体性能。例如，在进行模型的分布式训练时，低延迟的网络通信能够加快梯度同步的速度，从而缩短训练时间，提高训练效率。如下表为MPFT网络与MRFT网络的训练指标比较数据

Metric	MPFT	MRFT
tokens/day (B)	272.80	272.52
time/step (s)	19.926	19.946
1F (s)	1.13	1.13
bubble (s)	2.06	2.03
1B (s)	1.99	1.99
1W (s)	0.48	0.48
1F1B (s)	13.95	14.00
opt (s)	0.29	0.31
TFLOPS (non-causal)	432	432
TFLOPS (causal)	385	385
MFU (non-causal)	43.73%	43.68%
MFU (causal)	38.94%	38.90%

NCCL all-to-all性能从32个GPU扩展到128个GPU，针对MRFT和MPFT网络

DeepEP在MPFT上的表现：EP分发和合并内核通过全互联方式在16到128个GPU之间通信。每个GPU处理4096个标记。观察到的吞吐量几乎达到了400Gbps网卡带宽的饱和状态

为了验证 Multi-Plane Network Topology 的性能优势，研究者进行了实际的实验测试。实验结果表明，MPFT 网络在大规模分布式训练中的通信效率与 MRFT 网络相当，但具有更高的可扩展性和成本效益。

在不同消息大小下，NCCL全互联测试中MPFT网络和MRFT网络的延迟对比，表明它们的性能几乎相同

下表对比了不同网络拓扑的成本，采用 MPFT（多平面 Fat-Tree）拓扑的网络在支持 16,384 个 GPU 时，总成本为 72 百万美元，与支持 10k 端点的两层 Fat-Tree（FT2）网络成本相近，但提供了更强大的扩展能力和通信性能。

拓扑类型	端点数	交换机数	链路数	成本 (百万美元)	每端点成本 (千美元)
FT2	2,048	96	2,048	9	4.39
MPFT	16,384	768	16,384	72	4.39
FT3	65,536	5,120	131,072	491	7.5
SF	32,928	1,568	32,928	146	4.4
DF	261,632	16,352	384,272	1,522	5.8

在实现方面，Multi-Plane Network Topology 需要对网络设备和通信协议进行深度定制和优化。例如，每个 GPU 节点配备多个网络接口卡（NIC），每个 NIC 连接到不同的网络平面。同时，在通信协议栈中引入了特殊的路由机制和流量调度策略，以确保数据能够在多个平面之间高效地传输和交换。此外，为了进一步降低通信延迟，还需要对网络硬件进行优化，如采用高速的 InfiniBand 交换机和低延迟的通信芯片等。

理想多平面网络：每个网卡（NIC）都配备了多个物理端口，每个端口都连接到一个独立的网络平面。一个队列对（QP）可以同时利用所有可用端口进行数据包的发送和接收，这需要网卡本身支持乱序放置（out-of-order placement）

上图描述了理想的多平面网络架构，每个 NIC 配备多个物理端口，每个端口连接到不同的网络平面。单个队列对（QP）可以同时利用所有可用端口进行数据包的发送和接收，这需要 NIC 原生支持数据包的无序放置。然而，当前的硬件实现还存在一些限制。例如，由于当前 400G NDR InfiniBand 的限制，跨平面通信需要通过节点内的转发，这会引入额外的延迟。如果未来的硬件能够实现规模扩展（scale-up）和扩展出（scale-out）网络的融合，这种延迟可以显著降低，从而进一步增强多平面网络的可行性

低延迟通信网络的实践

低延迟通信网络在大规模模型训练和推理中发挥着至关重要的作用。在 DeepSeek-V3 的实践中，通过采用 InfiniBand（IB）网络和一系列优化技术，实现了低延迟、高带宽的通信环境，为模型的高效训练和推理提供了有力支持。

Link Layer	Same Leaf	Cross Leaf
RoCE	3.6us	5.6us
InfiniBand	2.8us	3.7us
NVLink	3.33us	-

IB 网络相较于 RoCE（RDMA over Converged Ethernet）等其他网络技术，在延迟方面具有明显的优势。如论文中的表 5 所示，在进行 64B 数据传输时，IB 在相同叶节点和跨叶节点的传输延迟分别为 2.8us 和 3.7us，而 RoCE 的对应延迟则为 3.6us 和 5.6us。这种低延迟特性对于需要频繁进行小数据包通信的 AI 应用来说至关重要，因为它能够显著减少通信开销，提高系统吞吐量。

然而，尽管 IB 网络在性能上表现出色，但其也存在一些局限性，如成本较高、可扩展性相对较差等。针对这些问题，研究人员提出了一系列改进 RoCE 性能的建议，例如开发专用的低延迟 RoCE 交换机、优化路由策略以及改进流量隔离和拥塞控制机制等。这些改进措施是为了提高 RoCE 网络的性能，使其能够在大规模 AI 系统中发挥更大的作用。

不同路由方法（ECMP、AR、静态路由）以及不同TP维度下AllGather和ReduceScatter通信原语的RoCE网络带宽

通过优化路由策略，可以显著提高 RoCE 网络在大规模分布式通信中的性能。例如，自适应路由（AR）能够动态地将数据包分散到多个路径上，从而避免网络拥塞，提高通信效率。

此外，DeepSeek-V3 还采用了 InfiniBand GPUDirect Async（IBGDA）技术，进一步降低了网络通信中的延迟。通过允许 GPU 直接填充工作请求（WR）内容并写入 RDMA 门铃 MMIO 地址，IBGDA 消除了传统通信模式中 GPU 与 CPU 之间频繁的交互开销，提高了通信效率。这在大规模分布式训练和推理场景中，能够显著减少通信延迟，提高系统的整体性能。

以下是 H800 节点互连的示意图：

H800 节点互连

硬件与模型的相互依赖关系

硬件特性对模型设计的塑造

硬件特性在很大程度上塑造了 DeepSeek-V3 的模型设计。例如，FP8 低精度计算作为一种新兴的硬件特性，为模型训练和推理提供了更高的计算效率和更低的内存占用。DeepSeek-V3 针对 FP8 硬件特性进行了专门的优化，开发了一套兼容 FP8 的训练框架，使得模型能够在充分利用硬件能力的同时，保持良好的训练稳定性和模型精度。

此外，硬件的规模扩展（scale-up）和扩展出（scale-out）网络特性也对模型设计产生了重要影响。为了避免张量并行（TP）在有限的 NVLink 带宽下效率低下，DeepSeek-V3 在训练过程中尽量避免使用 TP，而在推理阶段则根据实际需求选择性地采用 TP 来降低延迟和提高 TPOT 性能。同时，通过对模型架构进行分解和重组，使得模型能够更好地适应硬件的并行计算模式，提高整体性能。

例如，DeepSeek-V3 的 Multi-Plane Network Topology 设计，充分考虑了硬件网络的特性和限制。通过将网络划分为多个独立的平面，每个平面采用多层 Fat-Tree 架构，实现了故障隔离、低延迟通信和成本效益的统一。这种网络拓扑结构不仅提高了系统的可靠性和通信效率，还为大规模模型的分布式训练和推理提供了有力支持。

模型发展对硬件需求的推动

随着 LLMs 的不断发展和模型规模的日益扩大，它们对硬件的需求也在不断增长。DeepSeek-V3 的成功实践表明，现有的硬件架构在内存容量、计算能力和通信带宽等方面已经难以满足未来大规模模型的需求。因此，模型的发展推动了下一代硬件的研发，促使硬件厂商不断创新和优化硬件技术。

例如，为了满足模型对内存容量和带宽的高要求，硬件厂商正在探索新型的内存技术，如高带宽内存（HBM）的进一步升级和优化，以及内存语义通信和顺序问题的改进等。通过提高内存的带宽和容量，能够更好地支持大型模型的训练和推理，降低内存访问延迟，提高系统性能。

在计算能力方面，硬件厂商需要进一步提升 GPU 等计算设备的计算效率，特别是在低精度计算和混合精度计算方面。例如，开发支持更高精度累积的张量核心，以及优化对细粒度量化技术的支持，能够提高模型的训练速度和精度，满足大规模模型的计算需求。

通信带宽也是模型发展中的一个关键瓶颈。硬件厂商需要研发更高带宽、更低延迟的网络互连技术，如统一总线（UB）、Ultra Ethernet 等。这些新技术将有助于提高大规模集群的通信效率，减少通信延迟，为分布式模型训练和推理提供更强大的支持。

此外，模型的发展还推动了硬件在可靠性、可扩展性和易用性等方面的进步。例如，为了应对大规模集群中硬件故障的频繁发生，硬件厂商需要开发更先进的错误检测和纠正机制，提高系统的鲁棒性。同时，通过优化硬件的架构设计和软件工具链，提高硬件的可扩展性和易用性，使得研究人员和工程师能够更方便地开发和部署大规模模型。

以硬件驱动模型设计

硬件特性对架构选择的影响

DeepSeek-V3 的架构选择深受硬件特性的影响，尤其是 FP8 低精度计算和网络拓扑特性。FP8 低精度计算作为一种新兴的硬件特性，为模型训练和推理提供了更高的计算效率和更低的内存占用。DeepSeek-V3 针对 FP8 硬件特性进行了专门的优化，开发了一套兼容 FP8 的训练框架，使得模型能够在充分利用硬件能力的同时，保持良好的训练稳定性和模型精度。

此外，硬件的网络拓扑特性也对模型设计产生了重要影响。为了避免张量并行（TP）在有限的 NVLink 带宽下效率低下，DeepSeek-V3 在训练过程中尽量避免使用 TP，而在推理阶段则根据实际需求选择性地采用 TP 来降低延迟和提高 TPOT 性能。同时，通过对模型架构进行分解和重组，使得模型能够更好地适应硬件的并行计算模式，提高整体性能。

硬件特性对模型性能的影响

硬件特性不仅影响了 DeepSeek-V3 的架构选择，还对模型的性能产生了深远的影响。例如，FP8 计算的引入显著提高了训练速度，同时降低了内存占用。通过采用 FP8 混合精度训练，DeepSeek-V3 在保证模型精度的前提下，将内存占用减少约 50%，训练速度显著提升。这种性能的提升使得模型能够在更短的时间内完成训练，提高了研发效率，降低了训练成本。

此外，硬件的内存带宽和计算核心数量也对模型性能产生了重要影响。为了充分利用 GPU 的高内存带宽，DeepSeek-V3 对模型的内存访问模式进行了优化，减少了内存访问冲突和数据传输延迟。同时，根据 GPU 的计算核心数量和并行处理能力，对模型的计算任务进行了合理的分配和调度，提高了计算资源的利用率，进一步提升了模型的训练和推理速度。

Figure 2 展示了 H800 节点的互连架构，基于 Hopper 架构，与 H100 GPU 类似，但 NVLink 带宽从 900 GB/s 降低到 400 GB/s，以符合监管要求。每个节点配备八个 400G Infiniband (IB) CX7 NIC，增强扩展出能力，弥补带宽不足。

硬件与模型之间的相互依赖

硬件能力塑造模型创新

硬件能力的发展为模型创新提供了强大的支持，推动了 DeepSeek-V3 等先进模型的诞生。例如，高性能的 GPU 和高速的内存技术使得大规模模型的训练和推理成为可能。同时，硬件的低延迟通信网络为分布式模型的训练和推理提供了有力保障，使得模型能够在大规模集群中高效运行。

例如，DeepSeek-V3 中的 MoE 架构能够实现稀疏激活，这得益于硬件对大规模并行计算的支持。硬件的高性能计算能力使得在每个 token 的处理过程中，只有最相关的专家网络被激活，从而实现了模型规模的扩展，同时避免了计算资源的浪费。这种硬件能力与模型创新的结合，不仅提高了模型的性能，还为未来模型的发展提供了新的方向。

模型演变需求推动硬件发展

随着 LLM 的不断发展和模型规模的日益扩大，它们对硬件的需求也在不断增长。DeepSeek-V3 的成功实践表明，现有的硬件架构在内存容量、计算能力和通信带宽等方面已经难以满足未来大规模模型的需求。因此，模型的发展推动了下一代硬件的研发，促使硬件厂商不断创新和优化硬件技术。

硬件开发未来方向

从 DeepSeek-V3 提取的硬件设计见解

DeepSeek-V3 的实践为未来硬件设计提供了宝贵的见解。例如，FP8 混合精度计算的广泛应用表明，低精度计算将成为未来硬件发展的重要方向。硬件厂商需要进一步优化对低精度计算的支持，提高计算效率，降低功耗。

此外，DeepSeek-V3 的 Multi-Plane Network Topology 设计为未来网络硬件的发展提供了新的思路。硬件厂商可以借鉴这种网络拓扑结构，开发更高性能、更可靠的网络互连技术，以满足大规模模型的通信需求。

未来硬件与模型协同设计

为了实现硬件与模型的更好协同，未来的研究和开发方向可能包括以下几个方面：

1. 精确低精度计算单元 ：开发支持更高精度累积的张量核心，以及优化对细粒度量化技术的支持，能够提高模型的训练速度和精度，满足大规模模型的计算需求。
2. 规模扩展与扩展出的融合 ：设计更高效的并行计算架构，实现规模扩展和扩展出的无缝融合，提高硬件资源的利用率，降低通信开销。
3. 低延迟通信网络 ：研发更高带宽、更低延迟的网络互连技术，如统一总线（UB）、Ultra Ethernet 等，提高大规模集群的通信效率，减少通信延迟。
4. 硬件与模型的深度协同优化 ：通过硬件意识的模型开发和软件定义的硬件优化，实现两者在性能、功耗和成本等方面的最佳平衡。

总结

总结要点

通过对 DeepSeek-V3 的深入理解，我们领略到了硬件 - 模型协同设计的无穷魅力和巨大潜力。DeepSeek-V3 作为一款在大规模 GPU 集群上成功训练的先进语言模型，凭借其独特的 Multi-head Latent Attention（MLA）、Mixture of Experts（MoE）架构以及 FP8 混合精度训练等创新技术，在提高 LLM 训练和推理效率方面取得了显著的成就。它不仅成功地解决了内存效率、成本效益和推理速度等关键问题，还为我们展示了硬件与模型相互促进、共同发展的良好典范。

从内存优化的角度来看，MLA 技术通过巧妙地压缩 KV 缓存，大幅减少了内存占用，使得模型能够处理更长的序列和更大的批量，提高了系统的吞吐量。同时，低精度模型和量化压缩技术的广泛应用，也为缓解 AI 内存墙问题提供了有效的解决方案。在降低成本方面，MoE 架构通过稀疏激活的方式，在保持模型性能的同时，显著降低了训练和推理的计算成本。此外，MTP 技术的引入，进一步提高了推理速度，为实现更快速、更高效的 AI 服务开辟了新的途径。

在网络拓扑优化方面，DeepSeek-V3 所采用的 Multi-Plane Network Topology 为我们提供了一种高效、可靠的大规模集群通信方案。它通过多个独立的网络平面，实现了故障隔离、低延迟通信和成本效益的统一，为大规模模型的分布式训练和推理提供了有力支持。同时，低延迟通信网络的实践和相关技术的探索，也为未来网络硬件的发展指明了方向。

展望未来

基于 DeepSeek-V3 的实践经验，我们对未来的 AI 系统架构设计充满了期待。未来可能开发方向可能包括以下几个方面：

硬件架构的创新 ：随着模型规模的不断增长，硬件厂商需要不断探索新的架构和技术，如存算一体芯片、新型内存技术、更高性能的网络互连等，以满足 AI 工作负载对内存、计算和通信的极高要求。
模型优化算法的研发 ：研究人员将致力于开发更高效的模型优化算法，进一步提高模型的性能和效率。例如，改进的量化算法、更智能的稀疏激活策略以及新颖的注意力机制等，都将成为未来研究的重点领域。
硬件与模型的深度协同设计 ：未来的 AI 系统将更加注重硬件与模型之间的深度协同设计。通过硬件意识的模型开发和软件定义的硬件优化，实现两者在性能、功耗和成本等方面的最佳平衡。
系统软件的优化 ：为了充分发挥硬件和模型的潜力，系统软件也需要进行深度优化。包括高效的分布式训练框架、智能的资源调度算法以及用户友好的开发工具等，都将是未来系统软件发展的重要方向。

DeepSeek-V3 的成功为我们展示了硬件与模型协同设计的强大力量。它不仅在当前的 AI 领域具有重要的应用价值，更为未来 AI 系统的发展提供了宝贵的经验和启示。我们通过这次深入理解 DeepSeek-V3，不仅可以丰富自己的知识储备，还拓宽了技术视野。

参考资料

Insights into DeepSeek-V3: Scaling Challenges and Reflections on Hardware for AI Architectures

https://arxiv.org/pdf/2505.09343

DeepSeek-V3：硬件与模型的完美统协，奏响 AI 高效新乐章

DeepSeek-V3 的模型架构设计

Multi-head Latent Attention（MLA）

Mixture of Experts（MoE）架构的原理与协同

1. 专家选择（Expert Selection）

2. 专家处理（Expert Processing）

3. 结果融合（Result Fusion）

FP8 混合精度训练

内存效率优化的实践

低精度模型

MLA 压缩 KV 缓存的效果量化

其他内存优化方法的对比与应用

降低成本与提高推理速度的策略

MoE 模型的成本效益分析

推理速度的影响因素分析

Multi-Token Prediction（MTP）技术的实证

网络拓扑优化的探索

Multi-Plane Network Topology 的优势与实现

低延迟通信网络的实践

硬件与模型的相互依赖关系

硬件特性对模型设计的塑造

模型发展对硬件需求的推动

以硬件驱动模型设计

硬件特性对架构选择的影响

硬件特性对模型性能的影响

硬件与模型之间的相互依赖

硬件能力塑造模型创新

模型演变需求推动硬件发展

硬件开发未来方向

从 DeepSeek-V3 提取的硬件设计见解

未来硬件与模型协同设计

总结

总结要点

展望未来

相关资讯

OpenAI首席研究官：DeepSeek独立发现了o1的一些核心思路，奥特曼、LeCun纷纷置评

DeepSeek开源数学大模型，高中、大学定理证明新SOTA

推理性能直逼o1，DeepSeek再次出手，重点：即将开源