被持续侵犯到怀孕岬奈奈美,91av小视频,九九精品99

欧美三级不卡/成人97视频/四虎成人精品永久免费av九九 /国产一区二区精品91 - 成人三级在线播放

北大清華等團隊聯合發布 LLaVA-o1 首個具備自發性推理的視覺語言模型

2024-11-19 16:21:33 瀏覽量： 2162 作者：微觀獵人

近日，由北京大學、清華大學、鵬城實驗室、阿里巴巴達摩院和理海大學（Lehigh University）組成的研究團隊聯合推出了一款創新型視覺語言模型（VLM）——LLaVA-o1。該模型是首個具備自發性（Spontaneous AI）推理能力的視覺語言模型，專注于自主多階段推理任務，填補了文本和視覺問答模型間的重要空白。

LLaVA-o1 基于 Llama-3.2-Vision-Instruct 模型開發，擁有 110 億參數，并設計了獨特的四階段推理流程：1. 總結（Summary）：提取視覺內容的核心信息；2. 描述（Caption）：生成詳細的文本描述；3. 推理（Reasoning）：進行結構化邏輯推理；4. 結論（Conclusion）：得出最終答案或解決方案。

該模型通過 LLaVA-o1-100k 數據集進行微調，該數據集融合了視覺問答（VQA）數據與由 GPT-4o 自動生成的結構化推理注釋。這種多來源數據增強了模型在復雜任務中的適配能力。 LLaVA-o1 的核心創新是采用了階段級束搜索（stage-level beam search）推理時間 Scaling 技術，能夠在每個推理階段生成多個候選答案，并選擇最優答案。這一機制顯著提升了模型的推理準確性和效率，使其在復雜視覺問答任務中表現卓越。

相較于基礎模型，LLaVA-o1 在多模態推理基準測試中性能提升 8.9%，超越了許多大型閉源競爭對手，尤其在數學和科學相關的視覺問題推理方面表現突出。

LLaVA-o1 的推出為解決傳統視覺語言模型的局限性提供了全新思路。其自發性推理能力，模仿動物自發行為的機制，使模型不僅能被動響應任務，還能主動生成復雜多階段解決方案。這一特性在科研、教育、醫療等領域具有廣泛應用前景。