豆包團隊開源首款免語言模型依賴的視頻生成模型“VideoWorld”
2月10日,據報道,豆包大模型團隊聯合北京交通大學和中國科學技術大學共同開發的創新視頻生成實驗模型“VideoWorld”今天正式開源。在不依賴語言模型的前提下,達到了認知世界的能力,成為業內首個無需語言依賴即可理解和生成視頻的系統。
據介紹,與目前主流的多模態模型,如 Sora、DALL-E、Midjourney 等不同,VideoWorld實現了無需依賴語言模型即可認知世界的創新突破。現有的多模態模型大多數依賴語言或標簽數據來學習知識,但它們往往無法全面捕捉到真實世界的復雜信息,例如折紙、打領結等精細操作的知識,這些任務難以用簡單的語言描述清楚。
VideoWorld通過去除語言模型的依賴,實現了一個統一的執行理解與推理任務的能力,使得模型可以更加直觀、精準地從視覺信號中提取世界信息。這一創新突破讓其在執行復雜任務時更加靈活、高效,尤其在視頻生成領域展現出強大的能力。
VideoWorld的核心技術之一是基于一種潛在動態模型,該模型能夠高效地壓縮視頻幀之間的變化信息,顯著提高知識學習的效率和效果。不同于傳統的需要強化學習機制或獎勵函數的搜索過程,VideoWorld通過獨特的技術架構,能夠自主學習視頻內容和動態變化,在無需額外干預的情況下,完成復雜任務的訓練和執行。
在性能方面,VideoWorld取得了令人矚目的成就。在不依賴任何強化學習機制的前提下,模型達到了專業5段圍棋水平,證明其具備極高的戰略決策和認知能力。此外,VideoWorld還被應用于多種機器人任務場景,能夠在多種環境下執行復雜任務,進一步驗證了其在多領域的應用潛力。