DeepSeek 开源周第二弹:DeepEP —— 首个 MoE 模型训练和推理的 EP 通信库

圆圆 0 2025-07-02 10:00:07

2025年2月25日,deepseek在开源周的第二天,正式发布了第一个专为混合专家模型(moe)训练和推理设计的专家工具(ep)通信库——deepep。deepep在github上开源仅20分钟,便获得了超过1k个star。在这篇文章发布的时间里,deepep的github star数已经达到2.4k,并且还在持续激增。为什么需要DeepEP?

采用MoE(Mixture-of-Experts,混合专家)架构的大语言模型,能够在显着提升模型容量的同时避免计算量的线性增长。然而,这种架构也带来了新的挑战——尤其是在GPU之间的通信方面。在MoE模型中,每个Token只会激活前端专家,如何在设备之间高效交换数据连通可靠性。传统的全能通信方法往往会导致失败,增加延迟并降低GPU资源的利用率。在对延迟敏感的场景(如实时推理)中,即使是微小的延迟也可能影响整体性能。此外,尽管低精度损坏(如 FP8)有助于减少内存占用,但其实现需要精细优化来维持模型质量。这些问题凸显了针对专家补(Expert Parallelism,EP)需求定制通信库的必要性。

DeepEP 是一个专门为 MoE 模型和专家任务设计的通信库。DeepEP 解决了 Token 在 GPU 之间的转发和聚合过程中的效率问题。该库提供了高吞吐量、低延迟的全能 GPU 内核(通常称为MoE 高效分发与聚合内核),在训练和推理过程中是优化了数据交换流程。特别值得一提的是,DeepEP 支持低精度补偿(包括 FP8),这与 DeepSeek-V3 论文中详细描述的技术完全一致。DeepEP 有效地解决了节点内和节点间环境中扩展 MoE 架构的挑战。DeepEP 的核心功能

DeepEP 的核心功能包括:全能通信:通过软硬件良好优化,DeepEP实现了专家之间的高速数据传递,显着提升了训练和推理效率。支持 NVLink 和 RDMA:无论是节点内还是节点间通信,DeepEP 都充分利用 NVLink 和 RDMA 的高带宽和低延迟特性。高吞吐量与低延迟内核:在训练和推理预填充阶段,DeepEP 提供了高吞吐率计算核;而在推理解码阶段,则提供了低延迟计算核,满足不同场景的需求。即将加入 FP8 支持:DeepEP 支持包括 FP8 本身的低带宽和低延迟特性,进一步优化了计算资源的利用。灵活的 GPU资源控制:通过计算与通信的重叠处理,DeepEP 实现了资源的高效调度,提升了整体性能。DeepEP 的常规内核和低延迟内核

DeepEP 提供了两种主要类型的内核,因此不同的操作需求:常规内核(Normal kernels):这些内核针对需要高吞吐量的场景进行了优化,例如在推理或训练的预填充阶段。它们利用 NVLink 和 RDMA 网络技术,在 GPU 上之间高效地转发数据。测试显示,在Hopper GPU上,节点内通信的吞吐量为153GB/s,而使用CX7 InfiniBand(带宽大约50GB/s)的节点间通信性能稳定在43–47GB/s之间。

通过可用最大化带宽,这些内核减少了在令牌分发和结果合并过程中的通信延迟。低延迟内核(Low-latency kernels):对于响应速度要求极高的推理任务,DeepEP 提供了仅依赖 RDMA 的低延迟涉及内核。这些内核专门为处理小批量数据而设计,这是实时应用中的常见需求。据报道,在八个专家的操作分发中,延迟可低至 163另外,设计中还引入了一种基于钩子的通信与计算重叠技术,使数据传输可以与计算同时进行,而不占用GPU的流式多处理器(SM)。DeepEP性能如何?利用NVLink和RDMA转发的多边内核

DeepSeek在H800 GPU上测试了多边内核(NVLink最大带宽黑洞160 GB/s),每块GPU连接一块CX7 InfiniBand 400 Gb/s RDMA 带宽(最大带宽约为 50 GB/s)。另外,遵循 DeepSeek-V3/R1 的预训练设置,包括每批 4096 个 token、隐藏层维度 7168、Top-4 分组、Top-8 专家、FP8 分发以及 BF16 结果合并。性能测试的结果如下表所示:使用纯 RDMA 的延迟内核

DeepSeek 在 H800 GPU 上测试了低延迟内核,每块 GPU 一张连接 CX7 InfiniBand 400 Gb/s RDMA另外,遵循典型的 DeepSeek-V3/R1 生产环境设置,包括每批 128 个 token、隐藏层维度 7168、Top-8 专家、FP8 队列 BF16 结果汇总。性能测试的结果如下表所示:总结

DeepEP 的发布和 DeepSeek 在 MoE训练和推理优化上的又一个重要突破。该通信库针对专家任务设计,解决了GPU之间的数据交换瓶颈,极大地提高了通信效率。DeepSeek 资料deepseek-ai/DeepEP:https://github.com/deepseek-ai/DeepEP

以上就是DeepSeek开源周第二弹:DeepEP——首个MoE训练模型和推理的EP通信库的内容详细,更多请参考乐哥常识网其他相关文章!

上一篇:华裔留学生李美静的爱情故事:跨国恋情中的甜蜜与挑战
下一篇:返回列表
相关文章
返回顶部小火箭