欧美三级不卡/成人97视频/四虎成人精品永久免费av九九 /国产一区二区精品91 - 成人三级在线播放

DeepSeek開源DeepEP 首個MoE模型訓練與推理的EP通信庫

2025-02-25 18:41:54   |   嫣然   |   3731

2月25日,繼昨日開源Flash MLA之后,DeepSeek正式向公眾開源了其最新的技術成果——DeepEP。這是首個專為混合專家(MoE)模型訓練與推理設計的開源EP(Expert Parallelism)通信庫。

DeepEP:高吞吐量與低延遲的完美結合

DeepEP是DeepSeek為MoE模型訓練和推理量身定制的通信庫,提供了高吞吐量和低延遲的支持,特別適用于GPU內核和高性能計算任務。它不僅支持低精度操作,如FP8格式,還通過深入優化支持NVLink與RDMA(遠程直接內存訪問)技術,提升了GPU間的通信效率和帶寬。DeepEP的設計考慮到了不同硬件架構下的性能瓶頸,尤其在跨節點高效通信和帶寬轉發場景中提供了卓越的性能。

對于對延遲敏感的推理解碼任務,DeepEP提供了一組低延遲內核,并利用純RDMA技術最大限度減少延遲。此外,DeepEP采用了基于鉤子的通信計算重疊方法,這一創新可以有效避免占用SM(Streaming Multiprocessors)資源,從而優化系統的整體性能。

雖然DeepEP的核心思想來源于DeepSeek-V3論文,但DeepSeek明確表示,DeepEP的實現可能在某些細節上有所不同,特別是在優化算法和系統架構方面。此開源庫將為MoE模型的研究者和開發者提供更多的靈活性與創新空間,推動該領域的技術進步。

DeepEP的實際性能與測試結果

DeepSeek已在多個硬件環境下對DeepEP進行測試,確保其在高吞吐量與低延遲場景下的可靠性。在H800平臺上,DeepEP在常規內核和低延遲內核的測試中均表現出色。每臺設備連接至CX7 InfiniBand 400 Gb/s的RDMA網卡,最大帶寬達到50 GB/s。測試還使用了DeepSeek-V3/R1預訓練設置(包括每批次4096個Tokens和7168個隱藏層單元),并在FP8和BF16格式下進行調度和合并,確保了高效的計算性能。

DeepEP支持以下硬件和軟件環境:Hopper GPU(未來可能支持更多架構或設備)、Python 3.8及以上版本、CUDA 12.3及以上版本、PyTorch 2.1及以上版本、NVLink用于內部節點通信、RDMA網絡用于節點間通信。

DeepSeek表示,通過開源DeepEP,團隊希望能夠推動MoE模型在訓練和推理階段的進一步優化,同時為廣大研究者、開發者提供一套強大且易于使用的工具,推動高效并行計算和分布式訓練技術的發展。

對于希望在MoE模型及其他大規模深度學習任務中實現更高性能的開發者和企業,DeepEP將是一個不可或缺的利器。DeepSeek期待通過這項技術為AI研究和應用的快速發展貢獻力量。

特別提醒:本網信息來自于互聯網,目的在于傳遞更多信息,并不代表本網贊同其觀點。其原創性以及文中陳述文字和內容未經本站證實,對本文以及其中全部或者部分內容、文字、圖片等內容的真實性、完整性、及時性本站不作任何保證或承諾,請自行核實相關內容。本站不承擔此類作品侵權行為的直接責任及連帶責任。如若本網有任何內容侵犯您的權益,請及時發送相關信息至bireading@163.com,本站將會在48小時內處理完畢。

DeepSeek開源DeepEP 首個MoE模型訓練與推理的EP通信庫

2025-02-25 18:41:54 瀏覽量: 3731 作者: 嫣然

2月25日,繼昨日開源Flash MLA之后,DeepSeek正式向公眾開源了其最新的技術成果——DeepEP。這是首個專為混合專家(MoE)模型訓練與推理設計的開源EP(Expert Parallelism)通信庫。

DeepEP:高吞吐量與低延遲的完美結合

DeepEP是DeepSeek為MoE模型訓練和推理量身定制的通信庫,提供了高吞吐量和低延遲的支持,特別適用于GPU內核和高性能計算任務。它不僅支持低精度操作,如FP8格式,還通過深入優化支持NVLink與RDMA(遠程直接內存訪問)技術,提升了GPU間的通信效率和帶寬。DeepEP的設計考慮到了不同硬件架構下的性能瓶頸,尤其在跨節點高效通信和帶寬轉發場景中提供了卓越的性能。

對于對延遲敏感的推理解碼任務,DeepEP提供了一組低延遲內核,并利用純RDMA技術最大限度減少延遲。此外,DeepEP采用了基于鉤子的通信計算重疊方法,這一創新可以有效避免占用SM(Streaming Multiprocessors)資源,從而優化系統的整體性能。

雖然DeepEP的核心思想來源于DeepSeek-V3論文,但DeepSeek明確表示,DeepEP的實現可能在某些細節上有所不同,特別是在優化算法和系統架構方面。此開源庫將為MoE模型的研究者和開發者提供更多的靈活性與創新空間,推動該領域的技術進步。

DeepEP的實際性能與測試結果

DeepSeek已在多個硬件環境下對DeepEP進行測試,確保其在高吞吐量與低延遲場景下的可靠性。在H800平臺上,DeepEP在常規內核和低延遲內核的測試中均表現出色。每臺設備連接至CX7 InfiniBand 400 Gb/s的RDMA網卡,最大帶寬達到50 GB/s。測試還使用了DeepSeek-V3/R1預訓練設置(包括每批次4096個Tokens和7168個隱藏層單元),并在FP8和BF16格式下進行調度和合并,確保了高效的計算性能。

DeepEP支持以下硬件和軟件環境:Hopper GPU(未來可能支持更多架構或設備)、Python 3.8及以上版本、CUDA 12.3及以上版本、PyTorch 2.1及以上版本、NVLink用于內部節點通信、RDMA網絡用于節點間通信。

DeepSeek表示,通過開源DeepEP,團隊希望能夠推動MoE模型在訓練和推理階段的進一步優化,同時為廣大研究者、開發者提供一套強大且易于使用的工具,推動高效并行計算和分布式訓練技術的發展。

對于希望在MoE模型及其他大規模深度學習任務中實現更高性能的開發者和企業,DeepEP將是一個不可或缺的利器。DeepSeek期待通過這項技術為AI研究和應用的快速發展貢獻力量。

,

Copyright ©2018 鉍讀網 All Rights Reserved.

京ICP備18051707號

京公網安備 11011302001633號