欧美三级不卡/成人97视频/四虎成人精品永久免费av九九 /国产一区二区精品91 - 成人三级在线播放

Meta發布WebSSL視覺大模型系列 純圖像訓練突破多模態學習瓶頸

2025-04-25 17:19:58   |   唐薇   |   1753

4月25日,Meta公司在Hugging Face平臺正式發布了WebSSL系列視覺大模型,參數規模覆蓋3億至70億,開創性地采用純圖像數據進行訓練,旨在探索無語言監督的視覺自監督學習(SSL)技術邊界。這一突破性研究對當前依賴文本-圖像對齊的主流多模態學習范式提出了全新挑戰。

WebSSL系列包含基于DINOv2和Vision Transformer(ViT)架構的多個模型,僅使用MetaCLIP數據集(MC-2B)中的20億張圖像進行訓練。研究團隊采用兩種創新范式:聯合嵌入學習(DINOv2);掩碼建模(MAE);所有模型統一使用224×224分辨率輸入,并凍結視覺編碼器以確保實驗可比性。

在Cambrian-1基準測試的16個VQA任務中,WebSSL展現出三大核心優勢:

1. 規模效應:參數增至70億時,性能保持對數級提升,而CLIP在30億參數后即現飽和

2. 專項突破:OCRBench和ChartQA任務中性能超越CLIP達13.6%,僅需1.3%的富文本訓練數據

3. 分辨率適應:518px微調后在文檔任務中媲美SigLIP等專業高分辨率模型。

此次發布揭示了三大關鍵發現:視覺模型能隱式學習文本語義特征,與LLaMA-3等語言模型天然對齊;在ImageNet-1k分類等傳統任務上保持SOTA水平,部分指標超越MetaCLIP和DINOv2;為數據稀缺領域(如醫療影像)提供了去語言依賴的新研究范式。

Meta強調,WebSSL并非旨在取代CLIP,而是通過控制變量實驗證明:當擺脫語言監督限制后,純視覺模型在參數量級突破后仍能保持線性增長。該系列模型已集成至Hugging Face transformers庫,方便開發者直接調用。

特別提醒:本網信息來自于互聯網,目的在于傳遞更多信息,并不代表本網贊同其觀點。其原創性以及文中陳述文字和內容未經本站證實,對本文以及其中全部或者部分內容、文字、圖片等內容的真實性、完整性、及時性本站不作任何保證或承諾,請自行核實相關內容。本站不承擔此類作品侵權行為的直接責任及連帶責任。如若本網有任何內容侵犯您的權益,請及時發送相關信息至bireading@163.com,本站將會在48小時內處理完畢。

Meta發布WebSSL視覺大模型系列 純圖像訓練突破多模態學習瓶頸

2025-04-25 17:19:58 瀏覽量: 1753 作者: 唐薇

4月25日,Meta公司在Hugging Face平臺正式發布了WebSSL系列視覺大模型,參數規模覆蓋3億至70億,開創性地采用純圖像數據進行訓練,旨在探索無語言監督的視覺自監督學習(SSL)技術邊界。這一突破性研究對當前依賴文本-圖像對齊的主流多模態學習范式提出了全新挑戰。

WebSSL系列包含基于DINOv2和Vision Transformer(ViT)架構的多個模型,僅使用MetaCLIP數據集(MC-2B)中的20億張圖像進行訓練。研究團隊采用兩種創新范式:聯合嵌入學習(DINOv2);掩碼建模(MAE);所有模型統一使用224×224分辨率輸入,并凍結視覺編碼器以確保實驗可比性。

在Cambrian-1基準測試的16個VQA任務中,WebSSL展現出三大核心優勢:

1. 規模效應:參數增至70億時,性能保持對數級提升,而CLIP在30億參數后即現飽和

2. 專項突破:OCRBench和ChartQA任務中性能超越CLIP達13.6%,僅需1.3%的富文本訓練數據

3. 分辨率適應:518px微調后在文檔任務中媲美SigLIP等專業高分辨率模型。

此次發布揭示了三大關鍵發現:視覺模型能隱式學習文本語義特征,與LLaMA-3等語言模型天然對齊;在ImageNet-1k分類等傳統任務上保持SOTA水平,部分指標超越MetaCLIP和DINOv2;為數據稀缺領域(如醫療影像)提供了去語言依賴的新研究范式。

Meta強調,WebSSL并非旨在取代CLIP,而是通過控制變量實驗證明:當擺脫語言監督限制后,純視覺模型在參數量級突破后仍能保持線性增長。該系列模型已集成至Hugging Face transformers庫,方便開發者直接調用。

,

Copyright ©2018 鉍讀網 All Rights Reserved.

京ICP備18051707號

京公網安備 11011302001633號