OpenAI推出全新語音引擎 只需15秒樣本即可完成
近期,OpenAI宣布推出其最新開發的文本轉語音生成平臺,名為“語音引擎”,并提供有限訪問權限。該平臺可以根據15秒的語音片段創建合成語音,能夠以與說話者相同的語言或多種其他語言朗讀命令文本提示。這一新技術旨在為各個行業提供更廣泛的應用,并為OpenAI自身的方法和保障措施提供信息。
在OpenAI的博客文章中指出,通過小規模部署此技術,有助于他們了解如何將語音引擎應用于各個行業,并為其技術的進一步發展提供反饋和數據支持。已被授權訪問的公司包括教育科技公司Age of Learning、視覺講故事平臺HeyGen、一線健康軟件制造商Dimagi、人工智能通信應用程序創建者Livox和健康系統Lifespan。
據OpenAI透露,該語音引擎技術的開發始于2022年底,已經為文本轉語音API和ChatGPT的朗讀功能提供了預設語音。OpenAI語音引擎產品團隊成員杰夫·哈里斯在接受TechCrunch采訪時表示,該模型是通過許可數據和公開數據的組合進行訓練的。OpenAI告訴該出版物,目前僅有大約10名開發人員獲得了此模型的開放權限。
語音生成技術一直是人工智能領域不斷發展的一部分。雖然大多數人關注的是樂器或自然聲音的生成,但語音生成技術的應用潛力巨大。一些公司如Podcastle和ElevenLabs已經開始探索人工智能語音克隆技術和工具的應用,這進一步證明了這一領域的前景和潛力。
OpenAI的語音引擎的推出標志著文本轉語音技術的進一步演進,為各行業提供了更多可能性,同時也為該領域的發展提供了新的動力和方向。