英偉達發布 Llama-3.1-Nemotron-51B AI 模型 創新神經架構搜索等技術讓單 H100 GPU
近日,英偉達發布博文,宣布推出 Llama-3.1-Nemotron-51B AI 模型,源自 Meta 公司的 Llama-3.1-70B,不過創新使用神經架構搜索(NAS)方法,建立了一個高度準確和高效的模型。
Llama-3.1-Nemotron-51B AI 模型基于 Meta 公司 2024 年 7 月發布的 Llama-3.1-70B 模型,共有 510 億參數。該 AI 模型主要采用了神經架構搜索(NAS)技術微調,平衡性能和效率,在高工作負荷下,只需要一片 H100 GPU 即可運行,大大降低了內存消耗、計算復雜性以及與運行此類大型模型相關的成本。
英偉達認為這種方式在保持了出色的精度前提下,顯著降低了內存占用、內存帶寬和 FLOPs,并證明可以在創建另一個更小、更快的變體來加以推廣。
相比較 Meta 的 Llama-3.1-70B 模型,Llama-3.1-Nemotron-51B 在保持了幾乎相同的精度情況下,推理速度提高了 2.2 倍。Llama-3.1-Nemotron-51B 實現了令人印象深刻的精度與效率權衡,減少了內存帶寬,降低了每秒浮點運算次數 (FLOP),并減少了總體內存占用,同時不影響模型執行推理、總結和語言生成等復雜任務的能力。
英偉達通過采用 NAS 技術來優化推理模型,從而解決了這些問題。該團隊采用了分塊蒸餾過程,即訓練更小、更高效的學生模型(student model),以模仿更大的教師模型(teacher model)的功能。