阿里開源Qwen3-Embedding系列模型:多語言文本檢索能力行業(yè)領(lǐng)先
6月6日,阿里正式開源Qwen3-Embedding系列模型,包含Embedding(文本表征)和Reranker(排序)兩大模塊,專為文本檢索、語義匹配等任務(wù)優(yōu)化。該系列基于Qwen3基礎(chǔ)模型訓(xùn)練,在多項基準測試中表現(xiàn)卓越,尤其在多語言支持方面達到行業(yè)領(lǐng)先水平。
阿里官方數(shù)據(jù)顯示,Qwen3-Embedding系列在多語言文本表征任務(wù)中表現(xiàn)突出:8B參數(shù)版本在權(quán)威評測MTEB(Massive Text Embedding Benchmark)多語言榜單中排名第一(得分70.58),超越多家商業(yè)API服務(wù)。Reranker排序模型在文本檢索任務(wù)中顯著提升結(jié)果相關(guān)性,適用于搜索、推薦等場景。提供0.6B、2B、8B三種參數(shù)規(guī)模,開發(fā)者可根據(jù)算力需求靈活選擇。
此次開源延續(xù)了阿里通義千問(Qwen)系列的技術(shù)路線,降低企業(yè)部署AI檢索能力的門檻。隨著大模型競爭進入垂直化階段,高效的Embedding與Reranker技術(shù)將成為搜索、知識庫等場景的核心基礎(chǔ)設(shè)施。
目前,模型代碼及權(quán)重已公開,開發(fā)者可通過阿里官方GitHub倉庫獲取。業(yè)界預(yù)計,該系列將推動多語言檢索技術(shù)的進一步普及。