欧美三级不卡/成人97视频/四虎成人精品永久免费av九九 /国产一区二区精品91 - 成人三级在线播放

DeepSeek開源DeepEP 首個MoE模型訓練與推理的EP通信庫

2025-02-25 18:41:54 | 嫣然 | 3731

2月25日，繼昨日開源Flash MLA之后，DeepSeek正式向公眾開源了其最新的技術成果——DeepEP。這是首個專為混合專家（MoE）模型訓練與推理設計的開源EP（Expert Parallelism）通信庫。

DeepEP：高吞吐量與低延遲的完美結合

DeepEP是DeepSeek為MoE模型訓練和推理量身定制的通信庫，提供了高吞吐量和低延遲的支持，特別適用于GPU內核和高性能計算任務。它不僅支持低精度操作，如FP8格式，還通過深入優化支持NVLink與RDMA（遠程直接內存訪問）技術，提升了GPU間的通信效率和帶寬。DeepEP的設計考慮到了不同硬件架構下的性能瓶頸，尤其在跨節點高效通信和帶寬轉發場景中提供了卓越的性能。

對于對延遲敏感的推理解碼任務，DeepEP提供了一組低延遲內核，并利用純RDMA技術最大限度減少延遲。此外，DeepEP采用了基于鉤子的通信計算重疊方法，這一創新可以有效避免占用SM（Streaming Multiprocessors）資源，從而優化系統的整體性能。

雖然DeepEP的核心思想來源于DeepSeek-V3論文，但DeepSeek明確表示，DeepEP的實現可能在某些細節上有所不同，特別是在優化算法和系統架構方面。此開源庫將為MoE模型的研究者和開發者提供更多的靈活性與創新空間，推動該領域的技術進步。

DeepEP的實際性能與測試結果

DeepSeek已在多個硬件環境下對DeepEP進行測試，確保其在高吞吐量與低延遲場景下的可靠性。在H800平臺上，DeepEP在常規內核和低延遲內核的測試中均表現出色。每臺設備連接至CX7 InfiniBand 400 Gb/s的RDMA網卡，最大帶寬達到50 GB/s。測試還使用了DeepSeek-V3/R1預訓練設置（包括每批次4096個Tokens和7168個隱藏層單元），并在FP8和BF16格式下進行調度和合并，確保了高效的計算性能。

DeepEP支持以下硬件和軟件環境：Hopper GPU（未來可能支持更多架構或設備）、Python 3.8及以上版本、CUDA 12.3及以上版本、PyTorch 2.1及以上版本、NVLink用于內部節點通信、RDMA網絡用于節點間通信。

DeepSeek表示，通過開源DeepEP，團隊希望能夠推動MoE模型在訓練和推理階段的進一步優化，同時為廣大研究者、開發者提供一套強大且易于使用的工具，推動高效并行計算和分布式訓練技術的發展。

對于希望在MoE模型及其他大規模深度學習任務中實現更高性能的開發者和企業，DeepEP將是一個不可或缺的利器。DeepSeek期待通過這項技術為AI研究和應用的快速發展貢獻力量。

特別提醒：本網信息來自于互聯網，目的在于傳遞更多信息，并不代表本網贊同其觀點。其原創性以及文中陳述文字和內容未經本站證實，對本文以及其中全部或者部分內容、文字、圖片等內容的真實性、完整性、及時性本站不作任何保證或承諾，請自行核實相關內容。本站不承擔此類作品侵權行為的直接責任及連帶責任。如若本網有任何內容侵犯您的權益，請及時發送相關信息至bireading@163.com，本站將會在48小時內處理完畢。

DeepSeek開源DeepEP 首個MoE模型訓練與推理的EP通信庫

2025-02-25 18:41:54 瀏覽量： 3731 作者：嫣然

DeepEP：高吞吐量與低延遲的完美結合

DeepEP的實際性能與測試結果