欧美三级不卡/成人97视频/四虎成人精品永久免费av九九 /国产一区二区精品91 - 成人三级在线播放

阿里通義開源音頻語言模型Qwen2-Audio

2024-08-13 16:28:01   |   弘樂   |   1181

8月13日,阿里通義千問開源 Qwen2-Audio 系列的兩個(gè)模型 Qwen2-Audio-7B 和 Qwen2-Audio-7B-Instruct。

據(jù)悉,Qwen2-Audio可以不需文本輸入,直接進(jìn)行語音問答,理解并分析用戶輸入的音頻信號,包括人聲、自然音、音樂等。該模型在多個(gè)權(quán)威測評中都顯著超越先前的最佳模型。通義團(tuán)隊(duì)還同步推出了一套全新的音頻理解模型測評基準(zhǔn),相關(guān)論文已入選本周正在舉辦的國際頂會(huì)ACL 2024。

Qwen2-Audio是一款大型音頻語言模型(Large Audio-Language Model ,LALM),具備語音聊天和音頻分析兩種使用模式,前者是指用戶可以用語音向模型發(fā)出指令,模型無需自動(dòng)語音識別(ASR)模塊就可理解用戶輸入;后者是指模型能夠根據(jù)用戶指令分析音頻信息,包括人類聲音、自然聲音、音樂或者多種信號混雜的音頻。Qwen2-Audio能夠自動(dòng)實(shí)現(xiàn)兩種模式的切換。Qwen2-Audio支持超過8種語言和方言,如中文、英語、法語、意大利語、西班牙語、德語、日語,粵語。

根據(jù)Qwen2-Audio技術(shù)報(bào)告,Qwen2-Audio的模型結(jié)構(gòu)包含一個(gè)Qwen大語言模型和一個(gè)音頻編碼器。在預(yù)訓(xùn)練階段,依次進(jìn)行ASR、AAC等多任務(wù)預(yù)訓(xùn)練以實(shí)現(xiàn)音頻與語言的對齊,接著通過SFT(監(jiān)督微調(diào)) 強(qiáng)化模型處理下游任務(wù)的能力,再通過 DPO(直接偏好優(yōu)化)方法加強(qiáng)模型與人類偏好的對齊。

此外,通義團(tuán)隊(duì)同步開源了基礎(chǔ)模型 Qwen2-Audio-7B 及其指令跟隨版本Qwen2-Audio-7B-Instruct,用戶可以通過Hugging Face、魔搭社區(qū)ModelScope等下載模型,也可以在魔搭社區(qū)“創(chuàng)空間”直接體驗(yàn)?zāi)P湍芰Α?/p>

特別提醒:本網(wǎng)信息來自于互聯(lián)網(wǎng),目的在于傳遞更多信息,并不代表本網(wǎng)贊同其觀點(diǎn)。其原創(chuàng)性以及文中陳述文字和內(nèi)容未經(jīng)本站證實(shí),對本文以及其中全部或者部分內(nèi)容、文字、圖片等內(nèi)容的真實(shí)性、完整性、及時(shí)性本站不作任何保證或承諾,請自行核實(shí)相關(guān)內(nèi)容。本站不承擔(dān)此類作品侵權(quán)行為的直接責(zé)任及連帶責(zé)任。如若本網(wǎng)有任何內(nèi)容侵犯您的權(quán)益,請及時(shí)發(fā)送相關(guān)信息至bireading@163.com,本站將會(huì)在48小時(shí)內(nèi)處理完畢。

阿里通義開源音頻語言模型Qwen2-Audio

2024-08-13 16:28:01 瀏覽量: 1181 作者: 弘樂

8月13日,阿里通義千問開源 Qwen2-Audio 系列的兩個(gè)模型 Qwen2-Audio-7B 和 Qwen2-Audio-7B-Instruct。

據(jù)悉,Qwen2-Audio可以不需文本輸入,直接進(jìn)行語音問答,理解并分析用戶輸入的音頻信號,包括人聲、自然音、音樂等。該模型在多個(gè)權(quán)威測評中都顯著超越先前的最佳模型。通義團(tuán)隊(duì)還同步推出了一套全新的音頻理解模型測評基準(zhǔn),相關(guān)論文已入選本周正在舉辦的國際頂會(huì)ACL 2024。

Qwen2-Audio是一款大型音頻語言模型(Large Audio-Language Model ,LALM),具備語音聊天和音頻分析兩種使用模式,前者是指用戶可以用語音向模型發(fā)出指令,模型無需自動(dòng)語音識別(ASR)模塊就可理解用戶輸入;后者是指模型能夠根據(jù)用戶指令分析音頻信息,包括人類聲音、自然聲音、音樂或者多種信號混雜的音頻。Qwen2-Audio能夠自動(dòng)實(shí)現(xiàn)兩種模式的切換。Qwen2-Audio支持超過8種語言和方言,如中文、英語、法語、意大利語、西班牙語、德語、日語,粵語。

根據(jù)Qwen2-Audio技術(shù)報(bào)告,Qwen2-Audio的模型結(jié)構(gòu)包含一個(gè)Qwen大語言模型和一個(gè)音頻編碼器。在預(yù)訓(xùn)練階段,依次進(jìn)行ASR、AAC等多任務(wù)預(yù)訓(xùn)練以實(shí)現(xiàn)音頻與語言的對齊,接著通過SFT(監(jiān)督微調(diào)) 強(qiáng)化模型處理下游任務(wù)的能力,再通過 DPO(直接偏好優(yōu)化)方法加強(qiáng)模型與人類偏好的對齊。

此外,通義團(tuán)隊(duì)同步開源了基礎(chǔ)模型 Qwen2-Audio-7B 及其指令跟隨版本Qwen2-Audio-7B-Instruct,用戶可以通過Hugging Face、魔搭社區(qū)ModelScope等下載模型,也可以在魔搭社區(qū)“創(chuàng)空間”直接體驗(yàn)?zāi)P湍芰Α?/p>

,

Copyright ©2018 鉍讀網(wǎng) All Rights Reserved.

京ICP備18051707號

京公網(wǎng)安備 11011302001633號