欧美三级不卡/成人97视频/四虎成人精品永久免费av九九 /国产一区二区精品91 - 成人三级在线播放

北大清華等團隊聯合發布 LLaVA-o1 首個具備自發性推理的視覺語言模型

2024-11-19 16:21:33   |   微觀獵人   |   2162

近日,由北京大學、清華大學、鵬城實驗室、阿里巴巴達摩院和理海大學(Lehigh University)組成的研究團隊聯合推出了一款創新型視覺語言模型(VLM)——LLaVA-o1。該模型是首個具備自發性(Spontaneous AI)推理能力的視覺語言模型,專注于自主多階段推理任務,填補了文本和視覺問答模型間的重要空白。  

LLaVA-o1 基于 Llama-3.2-Vision-Instruct 模型開發,擁有 110 億參數,并設計了獨特的四階段推理流程:1. 總結(Summary):提取視覺內容的核心信息;2. 描述(Caption):生成詳細的文本描述;3. 推理(Reasoning):進行結構化邏輯推理;4. 結論(Conclusion):得出最終答案或解決方案。  

該模型通過 LLaVA-o1-100k 數據集進行微調,該數據集融合了視覺問答(VQA)數據與由 GPT-4o 自動生成的結構化推理注釋。這種多來源數據增強了模型在復雜任務中的適配能力。  LLaVA-o1 的核心創新是采用了階段級束搜索(stage-level beam search)推理時間 Scaling 技術,能夠在每個推理階段生成多個候選答案,并選擇最優答案。這一機制顯著提升了模型的推理準確性和效率,使其在復雜視覺問答任務中表現卓越。  

相較于基礎模型,LLaVA-o1 在多模態推理基準測試中性能提升 8.9%,超越了許多大型閉源競爭對手,尤其在數學和科學相關的視覺問題推理方面表現突出。  

LLaVA-o1 的推出為解決傳統視覺語言模型的局限性提供了全新思路。其自發性推理能力,模仿動物自發行為的機制,使模型不僅能被動響應任務,還能主動生成復雜多階段解決方案。這一特性在科研、教育、醫療等領域具有廣泛應用前景。

特別提醒:本網信息來自于互聯網,目的在于傳遞更多信息,并不代表本網贊同其觀點。其原創性以及文中陳述文字和內容未經本站證實,對本文以及其中全部或者部分內容、文字、圖片等內容的真實性、完整性、及時性本站不作任何保證或承諾,請自行核實相關內容。本站不承擔此類作品侵權行為的直接責任及連帶責任。如若本網有任何內容侵犯您的權益,請及時發送相關信息至bireading@163.com,本站將會在48小時內處理完畢。

北大清華等團隊聯合發布 LLaVA-o1 首個具備自發性推理的視覺語言模型

2024-11-19 16:21:33 瀏覽量: 2162 作者: 微觀獵人

近日,由北京大學、清華大學、鵬城實驗室、阿里巴巴達摩院和理海大學(Lehigh University)組成的研究團隊聯合推出了一款創新型視覺語言模型(VLM)——LLaVA-o1。該模型是首個具備自發性(Spontaneous AI)推理能力的視覺語言模型,專注于自主多階段推理任務,填補了文本和視覺問答模型間的重要空白。  

LLaVA-o1 基于 Llama-3.2-Vision-Instruct 模型開發,擁有 110 億參數,并設計了獨特的四階段推理流程:1. 總結(Summary):提取視覺內容的核心信息;2. 描述(Caption):生成詳細的文本描述;3. 推理(Reasoning):進行結構化邏輯推理;4. 結論(Conclusion):得出最終答案或解決方案。  

該模型通過 LLaVA-o1-100k 數據集進行微調,該數據集融合了視覺問答(VQA)數據與由 GPT-4o 自動生成的結構化推理注釋。這種多來源數據增強了模型在復雜任務中的適配能力。  LLaVA-o1 的核心創新是采用了階段級束搜索(stage-level beam search)推理時間 Scaling 技術,能夠在每個推理階段生成多個候選答案,并選擇最優答案。這一機制顯著提升了模型的推理準確性和效率,使其在復雜視覺問答任務中表現卓越。  

相較于基礎模型,LLaVA-o1 在多模態推理基準測試中性能提升 8.9%,超越了許多大型閉源競爭對手,尤其在數學和科學相關的視覺問題推理方面表現突出。  

LLaVA-o1 的推出為解決傳統視覺語言模型的局限性提供了全新思路。其自發性推理能力,模仿動物自發行為的機制,使模型不僅能被動響應任務,還能主動生成復雜多階段解決方案。這一特性在科研、教育、醫療等領域具有廣泛應用前景。

,

Copyright ©2018 鉍讀網 All Rights Reserved.

京ICP備18051707號

京公網安備 11011302001633號