NVIDIA 推出 Fugatto 可以根據(jù)文本提示創(chuàng)建音頻
11月26日,據(jù)報道,NVIDIA 宣布推出一款名為 Foundational Generative Audio Transformer Opus 1(簡稱 Fugatto)的實驗性生成式 AI 模型。被稱為“聲音的瑞士軍刀”,F(xiàn)ugatto 能夠從文本提示生成音頻內(nèi)容,也可以對現(xiàn)有的音樂、語音和聲音文件進行高精度修改。目前,NVIDIA 尚未透露是否會向公眾開放 Fugatto,或何時推出商業(yè)版本。
據(jù)報道,F(xiàn)ugatto 由全球頂尖 AI 研究人員團隊共同開發(fā),具備強大的 多語言和多口音能力。NVIDIA 應(yīng)用音頻研究經(jīng)理 Rafael Valle 表示,該項目的目標是“創(chuàng)建一個能夠像人類一樣理解和生成聲音的模型”。
該模型不僅可以生成逼真的聲音,還能根據(jù)上下文和預(yù)訓(xùn)練指令完成復(fù)雜的音頻任務(wù)。例如,它可以生成具有特定口音的情緒化語音,或模擬大自然中動態(tài)變化的聲音場景,例如暴雨穿越地面的沖擊聲。
NVIDIA 在公告中列舉了 Fugatto 的多種潛在應(yīng)用場景。Fugatto 可以幫助音樂制作人快速生成歌曲原型,從而節(jié)省創(chuàng)作時間。用戶還能嘗試不同的風(fēng)格、聲音和樂器,探索新的創(chuàng)作方向。Fugatto 還能夠根據(jù)用戶需求,用特定聲音生成學(xué)習(xí)材料,為語言學(xué)習(xí)和其他教育工具提供個性化支持。游戲開發(fā)者可利用 Fugatto 為游戲中的音效生成多種變體,根據(jù)玩家選擇和游戲情境調(diào)整音頻表現(xiàn),增強沉浸式體驗。Fugatto 的設(shè)計使其在經(jīng)過微調(diào)后,能夠完成超出預(yù)訓(xùn)練任務(wù)的復(fù)雜需求,例如結(jié)合多種音效生成自然音景或特殊場景的音頻。