OpenAI 推出 GPT-4o 語音模式 ChatGPT Plus 用戶的全新體驗
7月31日,OpenAI 宣布部分 ChatGPT Plus 用戶將即日起開始測試全新的 GPT-4o 語音模式(Alpha 版本),并計劃在今年秋季逐步推廣至所有 ChatGPT Plus 訂閱用戶。
今年 5 月,OpenAI 首席技術官米拉・穆拉蒂(Mira Murati)在一次演講中介紹了 GPT-4o 的創新之處。她表示:“在 GPT-4o 中,我們訓練了一個全新的跨文本、視覺和音頻的端到端統一模型,這意味著所有輸入和輸出都由同一個神經網絡處理。”由于 GPT-4o 是首個結合所有這些模式的模型,OpenAI 目前仍在探索該模型的功能及其局限性。
原計劃在今年 6 月底邀請一小部分 ChatGPT Plus 用戶測試 GPT-4o 語音模式,但由于需要更多時間來打磨該模型,提高其檢測和拒絕某些內容的能力,官方在 6 月宣布推遲測試。此前曝光的信息顯示,GPT-3.5 模型的平均語音反饋延遲為 2.8 秒,而 GPT-4 模型的延遲為 5.4 秒,因此在語音交流方面不太優秀。即將推出的 GPT-4o 則可以極大地縮短延遲時間,近乎實現無縫對話。
據鉍讀網了解,GPT-4o 語音模式不僅反應快速,其聲音更是堪比真人。OpenAI 表示,GPT-4o 語音模式可以感知語音中的情感語調,包括悲傷、興奮或歌唱。
OpenAI 發言人林賽・麥卡勒姆(Lindsay McCallum)表示:“ChatGPT 不能假冒他人的聲音,包括個人和公眾人物的聲音,并且會阻止與預設聲音不同的輸出。”
隨著 GPT-4o 語音模式的逐步推廣,用戶將能夠體驗到更加自然和流暢的語音交流。這不僅是技術上的突破,也為未來的人機互動設立了新的標準。OpenAI 在不斷探索和提升的道路上,致力于為用戶帶來更優質的體驗。
OpenAI 的這一最新進展,預示著人工智能技術在語音交互領域的又一次飛躍。我們期待著在不久的將來,更多用戶能夠體驗到 GPT-4o 帶來的全新語音互動體驗。