DeepMind 發(fā)布 Genie 2 模型 可生成互動 3D 游戲世界
12月5日,谷歌旗下的人工智能研究機構(gòu) DeepMind 本周發(fā)布了其全新的 Genie 2 模型,作為 Genie 模型的升級版,Genie 2 允許用戶通過簡單的文字描述和圖片生成“無限”種類的可玩 3D 世界,進(jìn)一步推動了人工智能在虛擬環(huán)境創(chuàng)作中的應(yīng)用。
Genie 2 模型具備強大的生成能力,能夠根據(jù)用戶的文本提示和圖像輸入,實時生成高度交互式的三維場景。例如,用戶只需輸入“森林中的可愛人形機器人”,該模型便能構(gòu)建出一個包含機器人角色和可探索環(huán)境的動態(tài)場景。用戶可以通過鍵盤或鼠標(biāo)操作機器人,在虛擬世界中進(jìn)行跳躍、游泳等互動行為。
DeepMind 表示,Genie 2 不僅能夠生成 3D 環(huán)境,還可以創(chuàng)建不同視角下的連貫世界,如第一人稱視角或等距視角,生成的場景可以持續(xù)長達(dá) 一分鐘,大多數(shù)場景則持續(xù) 10 到 20 秒。
與傳統(tǒng)的虛擬世界生成模型不同,Genie 2 在圖像質(zhì)量和物理效果上取得了顯著進(jìn)步。生成的場景畫質(zhì)接近 AAA 級別 的電子游戲,特別是在物體交互、動畫、光照、物理反射以及非玩家角色(NPC)的行為模擬方面表現(xiàn)出色。DeepMind 強調(diào),Genie 2 在場景記憶和一致性方面表現(xiàn)優(yōu)異,能夠在場景中正確渲染不可見的部分,并在它們重新出現(xiàn)在視野范圍內(nèi)時精確渲染。
雖然市面上也有類似的世界模型,如 World Labs 和 Decart 的產(chǎn)品,但這些模型通常存在偽影、場景一致性不足和幻覺等問題。例如,Decart 的 Minecraft 模擬器 Oasis 在生成過程中存在分辨率低的問題,并且很快會“忘記”關(guān)卡布局。然而,Genie 2 可以有效避免這些問題,準(zhǔn)確渲染遠(yuǎn)離視野的場景,保持環(huán)境的一致性和連貫性。
盡管 DeepMind 沒有詳細(xì)披露 Genie 2 的訓(xùn)練數(shù)據(jù)來源,但業(yè)內(nèi)普遍猜測,這款模型可能依賴于大量熱門游戲的游玩數(shù)據(jù),尤其是 YouTube 上的視頻內(nèi)容。谷歌在使用其平臺內(nèi)容進(jìn)行訓(xùn)練方面聲稱擁有相應(yīng)的權(quán)限,這引發(fā)了外界關(guān)于是否涉及知識產(chǎn)權(quán)侵犯的討論。
目前,利用 Genie 2 創(chuàng)建的游戲尚不夠完整且互動性有限,通常每隔一分鐘游戲進(jìn)度會被重置。因此,DeepMind 目前將其定位為 研究與創(chuàng)意工具,主要應(yīng)用于快速原型設(shè)計和 AI 智能體評估 等場景。DeepMind 表示,Genie 2 能夠?qū)⒏拍钏囆g(shù)和手繪草圖轉(zhuǎn)化為完全互動的虛擬環(huán)境,為未來的任務(wù)場景評估提供有力支持。