Meta發布報告：Llama 3訓練期間出現419次意外故障

2024-07-29 19:31:45 | 文白不白 | 888

Meta近日發布的一份研究報告顯示，其用于訓練4050億參數模型Llama 3的16384個英偉達H100顯卡集群在54天內共出現419次意外故障，平均每三小時就有一次。其中，一半以上的故障是由顯卡或其搭載的高帶寬內存（HBM3）引起的。

報告指出，在為期54天的預訓練期間，共發生了466次工作中斷，其中47次是計劃中斷，419次是意外中斷。計劃內的中斷主要由于自動化維護，而意外中斷則主要源于硬件問題。具體來說，GPU問題是導致意外中斷的主要原因，占58.7%。在419次意外中斷中，148次（30.1%）是由各種GPU故障（包括NVLink故障）引起的，而72次（17.2%）則是由GPU的HBM3內存故障引起的。值得注意的是，54天內只有兩個CPU發生故障。

在這些意外中斷中，41.3%是由多種因素造成的，包括軟件錯誤、網絡電纜和網絡適配器等。為了提高訓練效率，Meta團隊開發了一系列工具和優化策略，包括縮短任務啟動和檢查點時間、利用PyTorch的NCCL飛行記錄器診斷性能問題、識別拖后顯卡等。此外，Meta還關注到了環境因素的影響，如午間溫度波動對GPU性能的輕微影響，以及巨量GPU同時運行對數據中心電網的巨大壓力。

盡管面臨頻繁的硬件故障，Meta團隊仍保持了90%以上的有效訓練時間。隨著人工智能模型參數量的不斷增加，所需的計算資源也隨之擴大。例如，xAI計劃中的10萬塊H100顯卡集群預計會面臨更高的故障率，給未來的AI訓練帶來更大的挑戰。

特別提醒：本網信息來自于互聯網，目的在于傳遞更多信息，并不代表本網贊同其觀點。其原創性以及文中陳述文字和內容未經本站證實，對本文以及其中全部或者部分內容、文字、圖片等內容的真實性、完整性、及時性本站不作任何保證或承諾，請自行核實相關內容。本站不承擔此類作品侵權行為的直接責任及連帶責任。如若本網有任何內容侵犯您的權益，請及時發送相關信息至bireading@163.com，本站將會在48小時內處理完畢。

最新資訊更多》

1 瑞聲科技亮相中國光博會，全新光波導解決方案加速AR眼鏡普及
2 百度學術全面AI化重構，打造全球首個一站式智能科研平臺
3 英偉達云游戲服務升級：GeForce NOW上線RTX 5080 SuperPOD性能層級
4 英特爾發布Game On 7029顯卡驅動，全面支持《無主之地4》等四款新游
5 《戰地風云6》正式回歸大逃殺模式：支持百人對戰
6 微信公眾號上線“智能回復”功能騰訊混元大模型支持賬號自建“數字分身”
7 《流放之路：降臨》國服開啟不刪檔測試
8 微軟宣布個人開發者可免費在Microsoft Store發布應用
9 騰訊會議上線“AI托管”功能
10 《星球大戰：亡命之徒》Switch 2版迎來首輪更新
11 谷歌Veo 3視頻生成模型全面升級：支持1080P與豎屏格式
12 阿里巴巴宣布推出全球首個基于用戶行為產生的榜單“高德掃街榜”：全力支持線下消費

Meta發布報告：Llama 3訓練期間出現419次意外故障

2024-07-29 19:31:45 瀏覽量： 888 作者：文白不白

合作伙伴

關于我們
阿里云

京公網安備 11011302001633號

公眾號二維碼

京ICP備18051707號

京公網安備 11011302001633號