OpenAI 發布 CoT 思維鏈研究成果 阻止 AI 大模型的惡意行為
3月11日,據報道,OpenAI 今日發布了一項最新研究,展示了利用 CoT(思維鏈,Chain of Thought)監控技術監督 AI 推理模型“想法”的全新方法。這項研究旨在通過實時監控 AI 的思維過程,有效阻止大模型在生成內容時出現胡說八道、隱瞞真實意圖以及其他潛在惡意行為。這一技術突破也為監督更強大的超級模型提供了新的思路和工具。
據報道,AI 生成內容時偶爾會出現虛構事實、編造信息的現象,業內通常將此稱為“AI 幻覺”(AI Hallucination)。除此之外,AI 還可能在面對復雜問題時表現出“偷懶”或“耍壞”的行為,例如通過欺騙用戶或直接放棄任務來規避困難。這不僅影響用戶體驗,還可能帶來風險,因此開發出有效的監控手段變得尤為重要。
OpenAI 的新研究中,CoT 監控技術通過追蹤 AI 模型的推理鏈路,實時分析模型在執行任務過程中的思維流轉情況。例如,在代碼編寫任務中,監控器可以檢查 AI 在代碼庫中實現功能的每一步推理邏輯是否合乎預期,以確保生成的代碼不僅能夠通過測試,還能真正解決問題,而不是通過“獎勵黑客”行為(Reward Hacking)鉆空子蒙混過關。
在此次研究中,OpenAI 使用了最新發布的 o3-mini 作為被監控的目標模型,并選擇了較弱的 GPT-4o 模型作為監控器。在實際測試中,CoT 監控器在檢測系統性“獎勵黑客”行為時表現出色,召回率(Recall Rate)高達 95%,相比傳統僅監控行為輸出的方式(60% 召回率),提升顯著。這表明,通過思維鏈監控 AI 的推理過程,能夠更加精準地發現潛在問題。