Meta發布報告:Llama 3訓練期間出現419次意外故障
Meta近日發布的一份研究報告顯示,其用于訓練4050億參數模型Llama 3的16384個英偉達H100顯卡集群在54天內共出現419次意外故障,平均每三小時就有一次。其中,一半以上的故障是由顯卡或其搭載的高帶寬內存(HBM3)引起的。
報告指出,在為期54天的預訓練期間,共發生了466次工作中斷,其中47次是計劃中斷,419次是意外中斷。計劃內的中斷主要由于自動化維護,而意外中斷則主要源于硬件問題。具體來說,GPU問題是導致意外中斷的主要原因,占58.7%。在419次意外中斷中,148次(30.1%)是由各種GPU故障(包括NVLink故障)引起的,而72次(17.2%)則是由GPU的HBM3內存故障引起的。值得注意的是,54天內只有兩個CPU發生故障。
在這些意外中斷中,41.3%是由多種因素造成的,包括軟件錯誤、網絡電纜和網絡適配器等。為了提高訓練效率,Meta團隊開發了一系列工具和優化策略,包括縮短任務啟動和檢查點時間、利用PyTorch的NCCL飛行記錄器診斷性能問題、識別拖后顯卡等。此外,Meta還關注到了環境因素的影響,如午間溫度波動對GPU性能的輕微影響,以及巨量GPU同時運行對數據中心電網的巨大壓力。
盡管面臨頻繁的硬件故障,Meta團隊仍保持了90%以上的有效訓練時間。隨著人工智能模型參數量的不斷增加,所需的計算資源也隨之擴大。例如,xAI計劃中的10萬塊H100顯卡集群預計會面臨更高的故障率,給未來的AI訓練帶來更大的挑戰。