谷歌 DeepMind 推出 AI 視頻配音技術 為無聲視頻生成動態背景音樂
6月19日,谷歌旗下的人工智能實驗室 DeepMind 宣布了一項突破性的“video-to-audio”技術,該技術利用 AI 模型為無聲視頻生成背景音樂,標志著視頻音頻合成領域的重大進展。
據鉍讀了解,DeepMind 的“video-to-audio”模型能夠根據無聲視頻生成背景音樂和音效,盡管目前還需要用戶提供提示詞進行音效的預設。這一技術通過結合視頻內容與用戶提示詞,實現視頻與音頻的動態匹配,為視頻創作和多媒體制作提供了新的可能性。
其工作原理:
1. 視頻拆解:首先,模型會將輸入的無聲視頻進行拆解,提取視頻畫面的特征。
2. 提示詞結合:用戶提供文字提示,描述視頻可能的聲音或音效場景。例如,對于一條描述“在黑暗中行走”的視頻,提示詞可以是“電影、恐怖片、音樂、緊張、混凝土上的腳步聲”。
3. 擴散模型生成:利用擴散模型,結合視頻特征和提示詞進行反復運算,最終生成與視頻內容協調的背景音效。
這一技術使得 AI 能夠在生成過程中自動調整音效,使其與視頻中的場景、情緒和動作保持一致。例如,對于一段懸疑片段,AI 可以生成令人緊張的音樂和腳步聲,以增強觀眾的觀影體驗。
當前,DeepMind 的模型依然存在一些局限性:提示詞依賴:需要開發者輸入提示詞進行預設,不能完全獨立生成音效。口型同步:尚無法精確同步視頻中人物的對白和口型。展望未來,DeepMind 表示正在努力優化模型,使其能夠直接根據視頻內容生成背景音效,無需依賴提示詞。此外,未來版本的模型還將提升對白同步的能力,確保音效與視頻中的人物口型準確匹配。
這一技術的潛在應用范圍廣泛,包括但不限于,電影和視頻制作:為無聲視頻自動生成背景音效,減少人工音效合成的成本和時間。游戲開發:動態生成游戲場景中的背景音樂和音效,提升玩家的沉浸感。虛擬現實和增強現實:增強沉浸式體驗,通過動態音效提供更真實的互動感。