DeepSeek 發布 3FS 高性能并行文件系統 聚合吞吐量高達 6.6 TiB/s
2月28日,DeepSeek 在開源周第五天發布了其創新性的并行文件系統——3FS(Fire-Flyer File System)。該文件系統旨在充分發揮現代 SSD 和 RDMA 網絡的帶寬優勢,為深度學習和其他數據密集型應用提供強大的支持,具備令人驚嘆的數據訪問性能。
3FS 采用先進的去中心化架構,支持強一致性語義,并具備高度的并行性,能夠在大規模集群中高效工作。通過與現代硬件的緊密協作,3FS 在數據吞吐能力上達到了新的高度。
集群高吞吐:在一個由180個節點組成的集群中,3FS 實現了高達 6.6 TiB/s 的聚合讀取吞吐量,極大地提升了大規模數據處理效率。基準測試成績:在 25 節點的 GraySort 基準測試中,3FS 達到了 3.66 TiB / min 的吞吐量,證明其在高強度計算任務中的表現。單節點性能:每個客戶端節點的 KVCache 查找峰值吞吐量超過 40 GiB/s,確保在高負載下依然能夠維持出色的性能。
3FS 的設計重點是解決人工智能訓練和推理過程中的數據訪問瓶頸,尤其是面向大規模 AI 工作負載。其核心優勢包括高性能、強一致性和易用性,使其成為處理訓練數據預處理、數據加載、檢查點保存、推理緩存等工作負載的理想選擇。
3FS 已在 DeepSeek 的 V3 / R1 版本中得到廣泛應用,涵蓋了包括數據集加載、嵌入向量搜索等關鍵環節,提供了一個高效、易用的共享存儲層,簡化了分布式應用的開發。
作為 3FS 的擴展,DeepSeek 還開源了基于 3FS 的輕量級數據處理框架——Smallpond。Smallpond 構建于 DuckDB 和 3FS 之上,具備高性能的數據處理能力,可擴展至 PB 級數據集,且操作簡便,無需長期運行的服務。Smallpond 能夠為數據科學家和工程師提供靈活、高效的數據處理工具,進一步提升數據操作和分析的效率。