北大清華等團隊聯合發布 LLaVA-o1 首個具備自發性推理的視覺語言模型
近日,由北京大學、清華大學、鵬城實驗室、阿里巴巴達摩院和理海大學(Lehigh University)組成的研究團隊聯合推出了一款創新型視覺語言模型(VLM)——LLaVA-o1。該模型是首個具備自發性(Spontaneous AI)推理能力的視覺語言模型,專注于自主多階段推理任務,填補了文本和視覺問答模型間的重要空白。
LLaVA-o1 基于 Llama-3.2-Vision-Instruct 模型開發,擁有 110 億參數,并設計了獨特的四階段推理流程:1. 總結(Summary):提取視覺內容的核心信息;2. 描述(Caption):生成詳細的文本描述;3. 推理(Reasoning):進行結構化邏輯推理;4. 結論(Conclusion):得出最終答案或解決方案。
該模型通過 LLaVA-o1-100k 數據集進行微調,該數據集融合了視覺問答(VQA)數據與由 GPT-4o 自動生成的結構化推理注釋。這種多來源數據增強了模型在復雜任務中的適配能力。 LLaVA-o1 的核心創新是采用了階段級束搜索(stage-level beam search)推理時間 Scaling 技術,能夠在每個推理階段生成多個候選答案,并選擇最優答案。這一機制顯著提升了模型的推理準確性和效率,使其在復雜視覺問答任務中表現卓越。
相較于基礎模型,LLaVA-o1 在多模態推理基準測試中性能提升 8.9%,超越了許多大型閉源競爭對手,尤其在數學和科學相關的視覺問題推理方面表現突出。
LLaVA-o1 的推出為解決傳統視覺語言模型的局限性提供了全新思路。其自發性推理能力,模仿動物自發行為的機制,使模型不僅能被動響應任務,還能主動生成復雜多階段解決方案。這一特性在科研、教育、醫療等領域具有廣泛應用前景。