欧美三级不卡/成人97视频/四虎成人精品永久免费av九九 /国产一区二区精品91 - 成人三级在线播放

B站開源語音生成大模型IndexTTS-2.0:全球首個支持精準(zhǔn)時長控制的自回歸TTS系統(tǒng)

2025-09-09 16:29:56   |   探索者   |   1330

9月9日,據(jù)報道,B站(Bilibili)于9月8日正式宣布開源其自研語音生成大模型 IndexTTS-2.0。該系統(tǒng)被官方稱為全球首個支持精確時長控制的自回歸零樣本文本轉(zhuǎn)語音(TTS)模型,特別適用于視頻配音、有聲內(nèi)容創(chuàng)作等對音畫同步要求極高的場景。

相比傳統(tǒng)逐 token 生成的 TTS 系統(tǒng),IndexTTS-2.0 在自回歸架構(gòu)中實現(xiàn)了突破性的時長控制能力。該模型支持兩種生成模式:一種可精確指定生成的 token 數(shù)量以實現(xiàn)毫秒級語音時長控制;另一種則保留輸入提示的韻律特征進行自由生成,為用戶提供靈活的生成選擇。

在聲音表達方面,IndexTTS-2.0 實現(xiàn)了情感與說話人音色的解耦控制。用戶可分別指定音色來源和情感來源,例如使用一段音頻提取說話人音色,同時結(jié)合另一段不同情感的音頻或文本描述來塑造語音情緒,真正實現(xiàn)零樣本條件下的高保真語音合成。

為提升合成語音在強情感表達下的清晰度,研發(fā)團隊引入了GPT潛在表示,并采用三階段訓(xùn)練策略增強模型穩(wěn)定性。此外,基于Qwen3微調(diào)實現(xiàn)的“軟指令”機制,允許用戶通過自然語言直觀控制情緒表達,大幅降低使用門檻。

多數(shù)據(jù)集測試表明,IndexTTS-2.0在詞錯率、說話人相似度與情感還原度等多個指標(biāo)上均超越當(dāng)前主流零樣本TTS模型。B站表示,此次開源包括完整代碼和預(yù)訓(xùn)練權(quán)重,旨在推動語音合成技術(shù)的學(xué)術(shù)研究與產(chǎn)業(yè)應(yīng)用創(chuàng)新。

特別提醒:本網(wǎng)信息來自于互聯(lián)網(wǎng),目的在于傳遞更多信息,并不代表本網(wǎng)贊同其觀點。其原創(chuàng)性以及文中陳述文字和內(nèi)容未經(jīng)本站證實,對本文以及其中全部或者部分內(nèi)容、文字、圖片等內(nèi)容的真實性、完整性、及時性本站不作任何保證或承諾,請自行核實相關(guān)內(nèi)容。本站不承擔(dān)此類作品侵權(quán)行為的直接責(zé)任及連帶責(zé)任。如若本網(wǎng)有任何內(nèi)容侵犯您的權(quán)益,請及時發(fā)送相關(guān)信息至bireading@163.com,本站將會在48小時內(nèi)處理完畢。

B站開源語音生成大模型IndexTTS-2.0:全球首個支持精準(zhǔn)時長控制的自回歸TTS系統(tǒng)

2025-09-09 16:29:56 瀏覽量: 1330 作者: 探索者

9月9日,據(jù)報道,B站(Bilibili)于9月8日正式宣布開源其自研語音生成大模型 IndexTTS-2.0。該系統(tǒng)被官方稱為全球首個支持精確時長控制的自回歸零樣本文本轉(zhuǎn)語音(TTS)模型,特別適用于視頻配音、有聲內(nèi)容創(chuàng)作等對音畫同步要求極高的場景。

相比傳統(tǒng)逐 token 生成的 TTS 系統(tǒng),IndexTTS-2.0 在自回歸架構(gòu)中實現(xiàn)了突破性的時長控制能力。該模型支持兩種生成模式:一種可精確指定生成的 token 數(shù)量以實現(xiàn)毫秒級語音時長控制;另一種則保留輸入提示的韻律特征進行自由生成,為用戶提供靈活的生成選擇。

在聲音表達方面,IndexTTS-2.0 實現(xiàn)了情感與說話人音色的解耦控制。用戶可分別指定音色來源和情感來源,例如使用一段音頻提取說話人音色,同時結(jié)合另一段不同情感的音頻或文本描述來塑造語音情緒,真正實現(xiàn)零樣本條件下的高保真語音合成。

為提升合成語音在強情感表達下的清晰度,研發(fā)團隊引入了GPT潛在表示,并采用三階段訓(xùn)練策略增強模型穩(wěn)定性。此外,基于Qwen3微調(diào)實現(xiàn)的“軟指令”機制,允許用戶通過自然語言直觀控制情緒表達,大幅降低使用門檻。

多數(shù)據(jù)集測試表明,IndexTTS-2.0在詞錯率、說話人相似度與情感還原度等多個指標(biāo)上均超越當(dāng)前主流零樣本TTS模型。B站表示,此次開源包括完整代碼和預(yù)訓(xùn)練權(quán)重,旨在推動語音合成技術(shù)的學(xué)術(shù)研究與產(chǎn)業(yè)應(yīng)用創(chuàng)新。

,

Copyright ©2018 鉍讀網(wǎng) All Rights Reserved.

京ICP備18051707號

京公網(wǎng)安備 11011302001633號