谷歌發布全新多模態直播 API 開啟 AI 音視頻交互新時代
12月13日,在昨日的發布會上,谷歌正式推出了全新的 多模態直播(Multimodal Live)API,為開發者提供了一個功能強大的工具,支持實時音頻和視頻流交互。這一創新技術旨在推動 AI 與用戶之間的互動體驗,進一步接近自然流暢的人類對話模式。
多模態直播 API 實現了低延遲、雙向的文本、音頻和視頻交互,支持用戶通過音頻和文本形式與 AI 進行實時對話。以下是其主要特點,實時視頻理解:用戶可以通過攝像頭拍攝或共享屏幕,AI 能夠實時分析視頻內容并提供相關回答。無縫交互:用戶可以隨時打斷模型的回答,進行進一步提問或補充信息,實現更自然的交互體驗。多模態輸出:支持音頻和文本形式的同步輸出,滿足多場景需求。
谷歌表示,該 API 已向開發者開放,同時推出了一款多模態實時助手的演示應用,展示了其強大的功能。例如,用戶可以通過攝像頭實時展示一個物體,并詢問 AI 其功能或用途,或者共享屏幕錄像并就其中的內容進行提問。
多模態直播 API 支持集成多種工具,開發者只需一次 API 調用,即可完成復雜的用例。例如,開發者可以快速構建一個支持實時音視頻交互的教育應用,或是一個能夠分析共享屏幕內容的企業協作工具。谷歌還強調,該 API 的設計注重低延遲和高可靠性,確保用戶在實時交互中獲得最佳體驗。