谷歌 DeepMind 推出 GenRM 技術 通過生成式驗證器提升 AI 推理能力
近日,谷歌 DeepMind 團隊在 arxiv 上發表了一篇重要論文,介紹了其最新研發的 GenRM(生成式驗證器)技術。這一技術通過創新的獎勵模型來增強生成式 AI 的推理能力,為提升大語言模型(LLMs)的性能帶來了新的可能性。
在目前的 AI 行業內,提高大語言模型性能的主流方法是使用 Best-of-N 模式。該方法讓 LLM 生成 N 個候選解決方案,然后由驗證器對這些方案進行排序,選擇出最佳答案。然而,傳統的基于 LLM 的驗證器通常被訓練成判別分類器,這種方式主要是給每個解決方案打分,但卻不能充分利用預訓練 LLMs 的文本生成能力,從而限制了驗證器在復雜推理任務中的表現。
為了突破這一局限,DeepMind 團隊開發了 GenRM 技術。這種生成式驗證器采用了一種新的訓練方式,通過使用下一個 token 預測目標來訓練驗證器,使其不僅能驗證候選方案,還能參與生成新的解決方案。這樣的設計讓 GenRM 在處理推理任務時具有了以下顯著優勢:
1. 無縫集成指令調整:GenRM 可以根據給定的指令生成更符合預期的答案,從而提高了生成結果的準確性和相關性。
2. 支持思維鏈推理:該技術可以更有效地處理鏈式推理問題,使得在復雜任務中的推理過程更加自然和連貫。
3. 利用額外的推理時間計算:通過多數投票機制,GenRM 能夠利用額外的推理時間來進一步優化結果,確保最終答案的質量。
在算法和小學數學推理任務中,使用基于 Gemma(GenRM 的一個實現)的驗證器測試時,GenRM 的表現明顯優于傳統的判別式驗證器和 LLM-as-a-Judge 驗證器。通過使用 Best-of-N 方法解決問題,GenRM 的解決成功率提高了 16% 到 64%。這一結果表明,GenRM 在復雜推理任務中的優勢顯著。
谷歌 DeepMind 的團隊指出,GenRM 的出現標志著 AI 獎勵系統的一次重要演化。傳統的分類獎勵模型存在被操縱的風險,而 GenRM 的生成式獎勵機制能夠更好地防止模型出現欺詐行為。這一進步突顯了在 AI 系統中建立負責任獎勵模型的重要性,確保 AI 的輸出符合社會責任標準。