欧美三级不卡/成人97视频/四虎成人精品永久免费av九九 /国产一区二区精品91 - 成人三级在线播放

阿里云通義千問 Qwen2-VL 第二代視覺語言模型開源

2024-09-02 17:50:44   |   弘樂   |   1311

9月2日,阿里云通義千問今日宣布開源第二代視覺語言模型 Qwen2-VL,并推出 2B、7B 兩個尺寸及其量化版本模型。同時,旗艦模型 Qwen2-VL-72B 的 API 已上線阿里云百煉平臺,用戶可直接調用。

據阿里云官方介紹,相比上代模型,Qwen2-VL 的基礎性能全面提升。可以讀懂不同分辨率和不同長寬比的圖片,在 DocVQA、RealWorldQA、MTVQA 等基準測試創下全球領先的表現;理解 20 分鐘以上長視頻,支持基于視頻的問答、對話和內容創作等應用;具備強大的視覺智能體能力,可自主操作手機和機器人,借助復雜推理和決策的能力,Qwen2-VL 可以集成到手機、機器人等設備,根據視覺環境和文字指令進行自動操作;理解圖像視頻中的多語言文本,包括中文、英文,大多數歐洲語言,日語、韓語、阿拉伯語、越南語等。Qwen2-VL 延續了 ViT 加 Qwen2 的串聯結構,三個尺寸的模型都采用了 600M 規模大小的 ViT,支持圖像和視頻統一輸入。

但為了讓模型能夠更清楚地感知視覺信息和理解視頻,團隊在架構上進行了一些升級。實現了對原生動態分辨率的全面支持。不同于上代模型,Qwen2-VL 能夠處理任意分辨率的圖像輸入,不同大小圖片將被轉換為動態數量的 tokens,最小只占 4 個 tokens。這一設計模擬了人類視覺感知的自然方式,確保了模型輸入與圖像原始信息之間的高度一致性,賦予模型處理任意尺寸圖像的強大能力,使得其可以更靈活高效地進行圖像處理。

還使用了多模態旋轉位置嵌入(M-ROPE)方法。傳統的旋轉位置嵌入只能捕捉一維序列的位置信息,M-ROPE 使得大規模語言模型能夠同時捕捉和整合一維文本序列、二維視覺圖像以及三維視頻的位置信息,賦予了語言模型強大的多模態處理和推理能力,能讓模型更好地理解和建模復雜的多模態數據。

此次 Qwen2-VL 開源的多款模型中的旗艦模型 Qwen2-VL-72B 的 API 已上線阿里云百煉平臺,用戶可通過阿里云百煉平臺直接調用 API。

同時,通義千問團隊以 Apache 2.0 協議開源了 Qwen2-VL-2B 和 Qwen2-VL-7B,開源代碼已集成到 Hugging Face Transformers、vLLM 和其他第三方框架中。開發者可以通過 Hugging Face 和魔搭 ModelScope 下載使用模型,也可通過通義官網、通義 App 的主對話頁面使用模型。

特別提醒:本網信息來自于互聯網,目的在于傳遞更多信息,并不代表本網贊同其觀點。其原創性以及文中陳述文字和內容未經本站證實,對本文以及其中全部或者部分內容、文字、圖片等內容的真實性、完整性、及時性本站不作任何保證或承諾,請自行核實相關內容。本站不承擔此類作品侵權行為的直接責任及連帶責任。如若本網有任何內容侵犯您的權益,請及時發送相關信息至bireading@163.com,本站將會在48小時內處理完畢。

阿里云通義千問 Qwen2-VL 第二代視覺語言模型開源

2024-09-02 17:50:44 瀏覽量: 1311 作者: 弘樂

9月2日,阿里云通義千問今日宣布開源第二代視覺語言模型 Qwen2-VL,并推出 2B、7B 兩個尺寸及其量化版本模型。同時,旗艦模型 Qwen2-VL-72B 的 API 已上線阿里云百煉平臺,用戶可直接調用。

據阿里云官方介紹,相比上代模型,Qwen2-VL 的基礎性能全面提升。可以讀懂不同分辨率和不同長寬比的圖片,在 DocVQA、RealWorldQA、MTVQA 等基準測試創下全球領先的表現;理解 20 分鐘以上長視頻,支持基于視頻的問答、對話和內容創作等應用;具備強大的視覺智能體能力,可自主操作手機和機器人,借助復雜推理和決策的能力,Qwen2-VL 可以集成到手機、機器人等設備,根據視覺環境和文字指令進行自動操作;理解圖像視頻中的多語言文本,包括中文、英文,大多數歐洲語言,日語、韓語、阿拉伯語、越南語等。Qwen2-VL 延續了 ViT 加 Qwen2 的串聯結構,三個尺寸的模型都采用了 600M 規模大小的 ViT,支持圖像和視頻統一輸入。

但為了讓模型能夠更清楚地感知視覺信息和理解視頻,團隊在架構上進行了一些升級。實現了對原生動態分辨率的全面支持。不同于上代模型,Qwen2-VL 能夠處理任意分辨率的圖像輸入,不同大小圖片將被轉換為動態數量的 tokens,最小只占 4 個 tokens。這一設計模擬了人類視覺感知的自然方式,確保了模型輸入與圖像原始信息之間的高度一致性,賦予模型處理任意尺寸圖像的強大能力,使得其可以更靈活高效地進行圖像處理。

還使用了多模態旋轉位置嵌入(M-ROPE)方法。傳統的旋轉位置嵌入只能捕捉一維序列的位置信息,M-ROPE 使得大規模語言模型能夠同時捕捉和整合一維文本序列、二維視覺圖像以及三維視頻的位置信息,賦予了語言模型強大的多模態處理和推理能力,能讓模型更好地理解和建模復雜的多模態數據。

此次 Qwen2-VL 開源的多款模型中的旗艦模型 Qwen2-VL-72B 的 API 已上線阿里云百煉平臺,用戶可通過阿里云百煉平臺直接調用 API。

同時,通義千問團隊以 Apache 2.0 協議開源了 Qwen2-VL-2B 和 Qwen2-VL-7B,開源代碼已集成到 Hugging Face Transformers、vLLM 和其他第三方框架中。開發者可以通過 Hugging Face 和魔搭 ModelScope 下載使用模型,也可通過通義官網、通義 App 的主對話頁面使用模型。

,

Copyright ©2018 鉍讀網 All Rights Reserved.

京ICP備18051707號

京公網安備 11011302001633號