欧美三级不卡/成人97视频/四虎成人精品永久免费av九九 /国产一区二区精品91 - 成人三级在线播放

OpenAI Sora使用方法詳解 一文讀懂什么是Sora

2024-02-18 15:12:29   |   嫣然   |   102

OpenAI在2月16日發布了首個文生視頻模型Sora,這是一個具有劃時代意義的深度學習成果。Sora可以根據文本提示或圖像輸入,生成長達60秒的高質量視頻,展現出對物理世界和情感表達的深刻理解。Sora的視頻demo已經在官網上公開,包括不同的場景和主題,如東京街頭、農歷新年、貓咪早餐等。Sora的核心技術是擴散模型,它可以從噪聲視頻逐步生成清晰的圖像,利用Transformer架構實現強大的擴展性。

目前官網上已經更新了48個視頻demo,在這些demo中,Sora不僅能準確呈現細節,還能理解物體在物理世界中的存在,并生成具有豐富情感的角色。該模型還可以根據提示、靜止圖像甚至填補現有視頻中的缺失幀來生成視頻。例如一個Prompt(大語言模型中的提示詞)的描述是:在東京街頭,一位時髦的女士穿梭在充滿溫暖霓虹燈光和動感城市標志的街道上。

在Sora生成的視頻里,女士身著黑色皮衣、紅色裙子在霓虹街頭行走,不僅主體連貫穩定,還有多鏡頭,包括從大街景慢慢切入到對女士的臉部表情的特寫,以及潮濕的街道地面反射霓虹燈的光影效果。

另一個Prompt則是,一只貓試圖叫醒熟睡的主人,要求吃早餐,主人試圖忽略這只貓,但貓嘗試了新招,最終主人從枕頭下拿出藏起來的零食,讓貓自己再多待一會兒。在這個AI生成視頻里,貓甚至都學會了踩奶,對主人鼻頭的觸碰甚至都是輕輕的,接近物理世界里貓的真實反應。OpenAI表示,他們正在教AI理解和模擬運動中的物理世界,目標是訓練模型來幫助人們解決需要現實世界交互的問題。

隨后OpenAI解釋了Sora的工作原理,Sora是一個擴散模型,它從類似于靜態噪聲的視頻開始,通過多個步驟逐漸去除噪聲,視頻也從最初的隨機像素轉化為清晰的圖像場景。Sora使用了Transformer架構,有極強的擴展性。視頻和圖像是被稱為“補丁”的較小數據單位集合,每個“補丁”都類似于GPT中的一個標記(Token),通過統一的數據表達方式,可以在更廣泛的視覺數據上訓練和擴散變化,包括不同的時間、分辨率和縱橫比。Sora是基于過去對DALL·E和GPT的研究基礎構建,利用DALL·E 3的重述提示詞技術,為視覺模型訓練數據生成高描述性的標注,因此模型能更好的遵循文本指令。

Sora還借鑒了DALL·E和GPT的研究成果,使用重述提示詞技術提高視覺模型的數據標注質量。Sora目前還存在一些不足,例如難以模擬復雜物理原理、理解因果關系、精確描述空間細節和時間變化等。OpenAI表示,他們正在邀請部分用戶和創意工作者參與Sora的評估和反饋,希望能夠發現并減少潛在的危害或風險,同時推動模型的進步和創新。

特別提醒:本網信息來自于互聯網,目的在于傳遞更多信息,并不代表本網贊同其觀點。其原創性以及文中陳述文字和內容未經本站證實,對本文以及其中全部或者部分內容、文字、圖片等內容的真實性、完整性、及時性本站不作任何保證或承諾,請自行核實相關內容。本站不承擔此類作品侵權行為的直接責任及連帶責任。如若本網有任何內容侵犯您的權益,請及時發送相關信息至bireading@163.com,本站將會在48小時內處理完畢。

OpenAI Sora使用方法詳解 一文讀懂什么是Sora

2024-02-18 15:12:29 瀏覽量: 102 作者: 嫣然

OpenAI在2月16日發布了首個文生視頻模型Sora,這是一個具有劃時代意義的深度學習成果。Sora可以根據文本提示或圖像輸入,生成長達60秒的高質量視頻,展現出對物理世界和情感表達的深刻理解。Sora的視頻demo已經在官網上公開,包括不同的場景和主題,如東京街頭、農歷新年、貓咪早餐等。Sora的核心技術是擴散模型,它可以從噪聲視頻逐步生成清晰的圖像,利用Transformer架構實現強大的擴展性。

目前官網上已經更新了48個視頻demo,在這些demo中,Sora不僅能準確呈現細節,還能理解物體在物理世界中的存在,并生成具有豐富情感的角色。該模型還可以根據提示、靜止圖像甚至填補現有視頻中的缺失幀來生成視頻。例如一個Prompt(大語言模型中的提示詞)的描述是:在東京街頭,一位時髦的女士穿梭在充滿溫暖霓虹燈光和動感城市標志的街道上。

在Sora生成的視頻里,女士身著黑色皮衣、紅色裙子在霓虹街頭行走,不僅主體連貫穩定,還有多鏡頭,包括從大街景慢慢切入到對女士的臉部表情的特寫,以及潮濕的街道地面反射霓虹燈的光影效果。

另一個Prompt則是,一只貓試圖叫醒熟睡的主人,要求吃早餐,主人試圖忽略這只貓,但貓嘗試了新招,最終主人從枕頭下拿出藏起來的零食,讓貓自己再多待一會兒。在這個AI生成視頻里,貓甚至都學會了踩奶,對主人鼻頭的觸碰甚至都是輕輕的,接近物理世界里貓的真實反應。OpenAI表示,他們正在教AI理解和模擬運動中的物理世界,目標是訓練模型來幫助人們解決需要現實世界交互的問題。

隨后OpenAI解釋了Sora的工作原理,Sora是一個擴散模型,它從類似于靜態噪聲的視頻開始,通過多個步驟逐漸去除噪聲,視頻也從最初的隨機像素轉化為清晰的圖像場景。Sora使用了Transformer架構,有極強的擴展性。視頻和圖像是被稱為“補丁”的較小數據單位集合,每個“補丁”都類似于GPT中的一個標記(Token),通過統一的數據表達方式,可以在更廣泛的視覺數據上訓練和擴散變化,包括不同的時間、分辨率和縱橫比。Sora是基于過去對DALL·E和GPT的研究基礎構建,利用DALL·E 3的重述提示詞技術,為視覺模型訓練數據生成高描述性的標注,因此模型能更好的遵循文本指令。

Sora還借鑒了DALL·E和GPT的研究成果,使用重述提示詞技術提高視覺模型的數據標注質量。Sora目前還存在一些不足,例如難以模擬復雜物理原理、理解因果關系、精確描述空間細節和時間變化等。OpenAI表示,他們正在邀請部分用戶和創意工作者參與Sora的評估和反饋,希望能夠發現并減少潛在的危害或風險,同時推動模型的進步和創新。

,

Copyright ©2018 鉍讀網 All Rights Reserved.

京ICP備18051707號

京公網安備 11011302001633號