谷歌發布全新多模態直播 API 開啟 AI 音視頻交互新時代

2024-12-13 10:23:56 | 文白不白 | 2424

12月13日，在昨日的發布會上，谷歌正式推出了全新的多模態直播（Multimodal Live）API，為開發者提供了一個功能強大的工具，支持實時音頻和視頻流交互。這一創新技術旨在推動 AI 與用戶之間的互動體驗，進一步接近自然流暢的人類對話模式。

多模態直播 API 實現了低延遲、雙向的文本、音頻和視頻交互，支持用戶通過音頻和文本形式與 AI 進行實時對話。以下是其主要特點，實時視頻理解：用戶可以通過攝像頭拍攝或共享屏幕，AI 能夠實時分析視頻內容并提供相關回答。無縫交互：用戶可以隨時打斷模型的回答，進行進一步提問或補充信息，實現更自然的交互體驗。多模態輸出：支持音頻和文本形式的同步輸出，滿足多場景需求。

谷歌表示，該 API 已向開發者開放，同時推出了一款多模態實時助手的演示應用，展示了其強大的功能。例如，用戶可以通過攝像頭實時展示一個物體，并詢問 AI 其功能或用途，或者共享屏幕錄像并就其中的內容進行提問。

多模態直播 API 支持集成多種工具，開發者只需一次 API 調用，即可完成復雜的用例。例如，開發者可以快速構建一個支持實時音視頻交互的教育應用，或是一個能夠分析共享屏幕內容的企業協作工具。谷歌還強調，該 API 的設計注重低延遲和高可靠性，確保用戶在實時交互中獲得最佳體驗。

特別提醒：本網信息來自于互聯網，目的在于傳遞更多信息，并不代表本網贊同其觀點。其原創性以及文中陳述文字和內容未經本站證實，對本文以及其中全部或者部分內容、文字、圖片等內容的真實性、完整性、及時性本站不作任何保證或承諾，請自行核實相關內容。本站不承擔此類作品侵權行為的直接責任及連帶責任。如若本網有任何內容侵犯您的權益，請及時發送相關信息至bireading@163.com，本站將會在48小時內處理完畢。

最新資訊更多》

1 OpenAI聯手制作全球首部AI動畫長片《Critterz》
2 蘋果iPhone 17系列或將推出官方“斜挎肩帶”配件支持磁吸快拆與TechWoven保護殼
3 追覓廚電IFA2025首秀：以尖端科技重新定義現代高端廚房，洗碗機斬獲創新大獎！
4 字節跳動發布即夢圖片4.0：多模態AI生圖全面升級
5 蘋果自研AI搜索工具計劃明年3月上線，或與新Siri同步推出
6 9款產品榮獲IFA創新獎項，追覓科技正引領全新生活體驗
7 谷歌Nano Banana圖像編輯功能爆火：單日超2億次編輯
8 螞蟻國際推出 AI 智能體支付解決方案，可識別用戶支付意圖、全流程追溯詢證
9 DeepSeek 被曝正研發新一代 AI 智能體模型
10 美團閃購宣布推出零售行業首個“退貨免運費”服務
11 《黑神話》將開官方衍生品線下店
12 谷歌Chrome 140穩定版正式發布無痕模式新增IP保護與腳本攔截能力

谷歌發布全新多模態直播 API 開啟 AI 音視頻交互新時代

2024-12-13 10:23:56 瀏覽量： 2424 作者：文白不白

合作伙伴

關于我們
阿里云

京公網安備 11011302001633號

公眾號二維碼

京ICP備18051707號

京公網安備 11011302001633號