DeepSeek開源DeepEP 首個MoE模型訓練與推理的EP通信庫
2月25日,繼昨日開源Flash MLA之后,DeepSeek正式向公眾開源了其最新的技術成果——DeepEP。這是首個專為混合專家(MoE)模型訓練與推理設計的開源EP(Expert Parallelism)通信庫。
DeepEP:高吞吐量與低延遲的完美結合
DeepEP是DeepSeek為MoE模型訓練和推理量身定制的通信庫,提供了高吞吐量和低延遲的支持,特別適用于GPU內核和高性能計算任務。它不僅支持低精度操作,如FP8格式,還通過深入優化支持NVLink與RDMA(遠程直接內存訪問)技術,提升了GPU間的通信效率和帶寬。DeepEP的設計考慮到了不同硬件架構下的性能瓶頸,尤其在跨節點高效通信和帶寬轉發場景中提供了卓越的性能。
對于對延遲敏感的推理解碼任務,DeepEP提供了一組低延遲內核,并利用純RDMA技術最大限度減少延遲。此外,DeepEP采用了基于鉤子的通信計算重疊方法,這一創新可以有效避免占用SM(Streaming Multiprocessors)資源,從而優化系統的整體性能。
雖然DeepEP的核心思想來源于DeepSeek-V3論文,但DeepSeek明確表示,DeepEP的實現可能在某些細節上有所不同,特別是在優化算法和系統架構方面。此開源庫將為MoE模型的研究者和開發者提供更多的靈活性與創新空間,推動該領域的技術進步。
DeepEP的實際性能與測試結果
DeepSeek已在多個硬件環境下對DeepEP進行測試,確保其在高吞吐量與低延遲場景下的可靠性。在H800平臺上,DeepEP在常規內核和低延遲內核的測試中均表現出色。每臺設備連接至CX7 InfiniBand 400 Gb/s的RDMA網卡,最大帶寬達到50 GB/s。測試還使用了DeepSeek-V3/R1預訓練設置(包括每批次4096個Tokens和7168個隱藏層單元),并在FP8和BF16格式下進行調度和合并,確保了高效的計算性能。
DeepEP支持以下硬件和軟件環境:Hopper GPU(未來可能支持更多架構或設備)、Python 3.8及以上版本、CUDA 12.3及以上版本、PyTorch 2.1及以上版本、NVLink用于內部節點通信、RDMA網絡用于節點間通信。
DeepSeek表示,通過開源DeepEP,團隊希望能夠推動MoE模型在訓練和推理階段的進一步優化,同時為廣大研究者、開發者提供一套強大且易于使用的工具,推動高效并行計算和分布式訓練技術的發展。
對于希望在MoE模型及其他大規模深度學習任務中實現更高性能的開發者和企業,DeepEP將是一個不可或缺的利器。DeepSeek期待通過這項技術為AI研究和應用的快速發展貢獻力量。