肉动漫网站,亚洲一在线,日韩av成人在线

欧美三级不卡/成人97视频/四虎成人精品永久免费av九九 /国产一区二区精品91 - 成人三级在线播放

B站開源語音生成大模型IndexTTS-2.0：全球首個支持精準(zhǔn)時長控制的自回歸TTS系統(tǒng)

2025-09-09 16:29:56 瀏覽量： 1330 作者：探索者

9月9日，據(jù)報道，B站（Bilibili）于9月8日正式宣布開源其自研語音生成大模型 IndexTTS-2.0。該系統(tǒng)被官方稱為全球首個支持精確時長控制的自回歸零樣本文本轉(zhuǎn)語音（TTS）模型，特別適用于視頻配音、有聲內(nèi)容創(chuàng)作等對音畫同步要求極高的場景。

相比傳統(tǒng)逐 token 生成的 TTS 系統(tǒng)，IndexTTS-2.0 在自回歸架構(gòu)中實現(xiàn)了突破性的時長控制能力。該模型支持兩種生成模式：一種可精確指定生成的 token 數(shù)量以實現(xiàn)毫秒級語音時長控制；另一種則保留輸入提示的韻律特征進行自由生成，為用戶提供靈活的生成選擇。

在聲音表達方面，IndexTTS-2.0 實現(xiàn)了情感與說話人音色的解耦控制。用戶可分別指定音色來源和情感來源，例如使用一段音頻提取說話人音色，同時結(jié)合另一段不同情感的音頻或文本描述來塑造語音情緒，真正實現(xiàn)零樣本條件下的高保真語音合成。

為提升合成語音在強情感表達下的清晰度，研發(fā)團隊引入了GPT潛在表示，并采用三階段訓(xùn)練策略增強模型穩(wěn)定性。此外，基于Qwen3微調(diào)實現(xiàn)的“軟指令”機制，允許用戶通過自然語言直觀控制情緒表達，大幅降低使用門檻。

多數(shù)據(jù)集測試表明，IndexTTS-2.0在詞錯率、說話人相似度與情感還原度等多個指標(biāo)上均超越當(dāng)前主流零樣本TTS模型。B站表示，此次開源包括完整代碼和預(yù)訓(xùn)練權(quán)重，旨在推動語音合成技術(shù)的學(xué)術(shù)研究與產(chǎn)業(yè)應(yīng)用創(chuàng)新。