B站開源語音生成大模型IndexTTS-2.0:全球首個支持精準(zhǔn)時長控制的自回歸TTS系統(tǒng)
9月9日,據(jù)報道,B站(Bilibili)于9月8日正式宣布開源其自研語音生成大模型 IndexTTS-2.0。該系統(tǒng)被官方稱為全球首個支持精確時長控制的自回歸零樣本文本轉(zhuǎn)語音(TTS)模型,特別適用于視頻配音、有聲內(nèi)容創(chuàng)作等對音畫同步要求極高的場景。
相比傳統(tǒng)逐 token 生成的 TTS 系統(tǒng),IndexTTS-2.0 在自回歸架構(gòu)中實現(xiàn)了突破性的時長控制能力。該模型支持兩種生成模式:一種可精確指定生成的 token 數(shù)量以實現(xiàn)毫秒級語音時長控制;另一種則保留輸入提示的韻律特征進行自由生成,為用戶提供靈活的生成選擇。
在聲音表達方面,IndexTTS-2.0 實現(xiàn)了情感與說話人音色的解耦控制。用戶可分別指定音色來源和情感來源,例如使用一段音頻提取說話人音色,同時結(jié)合另一段不同情感的音頻或文本描述來塑造語音情緒,真正實現(xiàn)零樣本條件下的高保真語音合成。
為提升合成語音在強情感表達下的清晰度,研發(fā)團隊引入了GPT潛在表示,并采用三階段訓(xùn)練策略增強模型穩(wěn)定性。此外,基于Qwen3微調(diào)實現(xiàn)的“軟指令”機制,允許用戶通過自然語言直觀控制情緒表達,大幅降低使用門檻。
多數(shù)據(jù)集測試表明,IndexTTS-2.0在詞錯率、說話人相似度與情感還原度等多個指標(biāo)上均超越當(dāng)前主流零樣本TTS模型。B站表示,此次開源包括完整代碼和預(yù)訓(xùn)練權(quán)重,旨在推動語音合成技術(shù)的學(xué)術(shù)研究與產(chǎn)業(yè)應(yīng)用創(chuàng)新。