阿里通義千問正式推出開源 Qwen2.5-1M 模型及推理框架
1月27日, 阿里通義千問今日宣布,正式推出開源的 Qwen2.5-1M 系列模型及其對應的推理框架。本次發布的模型分別為 Qwen2.5-7B-Instruct-1M 和 Qwen2.5-14B-Instruct-1M,這也是通義千問首次將其 Qwen 模型的上下文擴展到 100 萬個標記(1M tokens)長度,進一步提升了模型在長文本任務中的表現。
為了幫助開發者更高效地部署 Qwen2.5-1M 系列模型,Qwen 團隊全面開源了基于 vLLM(大型語言模型推理框架)的推理框架,并結合了稀疏注意力方法,使得該框架在處理 1M 長度的輸入時,速度提升了 3 倍到 7 倍。開發者可以利用這一優化框架,在更大規模的數據處理和計算任務中實現更高效的推理性能。
Qwen2.5-1M 系列模型在處理長上下文任務時展現出了卓越的能力。在“海撈針”(Passkey Retrieval)任務中,模型能夠準確地從 1M 長度的文檔中檢索出隱藏信息,僅 Qwen2.5-7B 模型出現了少量錯誤。對于復雜的長上下文理解任務,Qwen 團隊還使用了 RULER、LV-Eval 和 LongbenchChat 測試集,進一步驗證了模型的高效性。 Qwen2.5-1M 系列模型在大多數長上下文任務中顯著優于之前的 128K 版本,尤其是在處理超過 64K 長度的任務時,表現出色。Qwen2.5-14B-Instruct-1M 模型不僅超越了 Qwen2.5-Turbo,還在多個數據集上穩定超越了 GPT-4o-mini,為長上下文任務提供了開源的高性能選擇。
盡管在上下文長度擴展到 1M 后,Qwen2.5-7B-Instruct-1M 和 Qwen2.5-14B-Instruct-1M 在短序列任務上的表現依然與其 128K 版本相當,確保了基本能力并未受到影響。同時,Qwen2.5-14B-Instruct-1M 和 Qwen2.5-Turbo 在短文本任務中的表現與 GPT-4o-mini 相近,但其上下文長度卻是 GPT-4o-mini 的八倍,進一步凸顯了 Qwen 系列在處理大規模文本數據時的優勢。