蘋果與英偉達合作推出ReDrafter加速LLM推理 提升AI性能2.7倍
12月18日,蘋果公司發布博文宣布,與英偉達(Nvidia)展開合作,推出了開源的推測解碼方法Recurrent Drafter(ReDrafter)。據報道,此次合作為AI技術帶來了重要突破,ReDrafter集成到了NVIDIA的TensorRT-LLM推理加速框架中,在NVIDIA GPU上,LLM的推理速度最高提升了2.7倍,極大地降低了用戶延遲和計算成本。
隨著大語言模型在生產應用中的廣泛使用,推理效率的提升對于降低計算成本和減少用戶延遲至關重要。蘋果的機器學習研究人員指出,ReDrafter結合了RNN草稿模型、波束搜索(beam search)與動態樹注意力(dynamic tree attention),使得開源模型每步生成最多3.5個tokens,超越了先前推測性解碼技術的性能。
蘋果與英偉達的合作使得ReDrafter能夠應用于大規模生產環境,特別是在需要高效解碼的復雜模型中;鶞蕼y試結果顯示,在NVIDIA GPU上,集成ReDrafter的TensorRT-LLM框架顯著提高了數百億參數規模的生產模型解碼速度,提升幅度達到2.7倍。這不僅優化了用戶體驗,降低了延遲,還有效減少了GPU使用數量與功耗。
為使ReDrafter能夠在生產環境中發揮最佳效果,英偉達為TensorRT-LLM框架添加了新的運算符,并公開了現有運算符,從而增強了對復雜模型和解碼方法的適應性。這些優化使得LLM推理不僅更加高效,同時也能適應更為復雜的應用場景,進一步推動了人工智能技術的進步。