Hugging Face 推出兩款輕量級 AI 模型新標桿
1月24日,據報道,Hugging Face 發布了兩款全新輕量級視覺語言模型(VLM):SmolVLM-256M-Instruct 和 SmolVLM-500M-Instruct,SmolVLM-256M-Instruct 僅有 2.56 億參數,可在內存低于 1GB 的 PC 上高效運行。
Hugging Face 的 SmolVLM 系列以輕量化和高性能著稱。本次推出的 SmolVLM-256M-Instruct 和 SmolVLM-500M-Instruct 進一步縮減了模型參數,其中SmolVLM-256M-Instruct:僅有 2.56 億參數,是迄今為止最小的視覺語言模型,可在極低算力環境下運行,同時提供卓越的性能輸出。SmolVLM-500M-Instruct:擁有 5 億參數,針對硬件資源受限的場景設計,適用于大規模數據分析任務。兩款模型均采用 Hugging Face 的先進多模態技術,能夠執行圖像描述、短視頻分析、文檔理解等任務,為開發者提供更廣泛的應用場景。
在技術上,其擁有多模態能力,使SmolVLM 模型能夠處理圖像、文本和文檔等多模態數據,支持圖像描述、科學圖表分析和 PDF 問答等復雜任務。優化的視覺編碼器的新模型采用了 SigLIP base patch-16/512 視覺編碼器,相較于 SmolVLM 2B 使用的 SigLIP 400M SO,優化了圖像標記的處理方式,顯著減少了冗余并提升了復雜數據處理能力。
在數據集支持上,The Cauldron:包含 50 個高質量圖像和文本數據集,專注于多模態學習。Docmatix:為文檔理解設計的定制數據集,將掃描文檔與詳細標題配對,提升文檔處理能力。高效圖像編碼,SmolVLM 模型以每標記 4096 像素的速率對圖像進行編碼,比早期版本的每標記 1820 像素提升了一倍以上,大幅提高了數據處理效率。
Hugging Face 表示,SmolVLM 系列模型在構建可搜索數據庫時的速度和成本表現優異,可媲美參數規模是其 10 倍的模型。通過優化算法和架構設計,這些模型為開發者提供了高性價比的 AI 解決方案,使 AI 能力觸手可及。