欧美三级不卡/成人97视频/四虎成人精品永久免费av九九 /国产一区二区精品91 - 成人三级在线播放

豆包提出全新稀疏模型架構(gòu) UltraMem

2025-02-12 14:48:16   |   弘樂   |   1868

2月12日,據(jù)報(bào)道,豆包大模型團(tuán)隊(duì)今日宣布,字節(jié)跳動(dòng)豆包大模型團(tuán)隊(duì)提出了全新的稀疏模型架構(gòu) UltraMem,該架構(gòu)有效解決了 MoE 推理時(shí)高額的訪存問題,推理速度較 MoE 架構(gòu)提升 2-6 倍,推理成本最高可降低 83%。該研究還揭示了新架構(gòu)的 Scaling Law,證明其不僅具備優(yōu)異的 Scaling 特性,更在性能上超越了 MoE。

實(shí)驗(yàn)結(jié)果表明,訓(xùn)練規(guī)模達(dá) 2000 萬 value 的 UltraMem 模型,在同等計(jì)算資源下可同時(shí)實(shí)現(xiàn)業(yè)界領(lǐng)先的推理速度和模型性能,為構(gòu)建數(shù)十億規(guī)模 value 或 expert 開辟了新路徑。據(jù)介紹,UltraMem 是一種同樣將計(jì)算和參數(shù)解耦的稀疏模型架構(gòu),在保證模型效果的前提下解決了推理的訪存問題。實(shí)驗(yàn)結(jié)果表明,在參數(shù)和激活條件相同的情況下,UltraMem 在模型效果上超越了 MoE,并將推理速度提升了 2-6 倍。此外,在常見 batch size 規(guī)模下,UltraMem 的訪存成本幾乎與同計(jì)算量的 Dense 模型相當(dāng)。

在 Transformer 架構(gòu)下,模型的性能與其參數(shù)數(shù)量和計(jì)算復(fù)雜度呈對數(shù)關(guān)系。隨著 LLM 規(guī)模不斷增大,推理成本會急劇增加,速度變慢。盡管 MoE 架構(gòu)已經(jīng)成功將計(jì)算和參數(shù)解耦,但在推理時(shí),較小的 batch size 就會激活全部專家,導(dǎo)致訪存急劇上升,進(jìn)而使推理延遲大幅增加。

特別提醒:本網(wǎng)信息來自于互聯(lián)網(wǎng),目的在于傳遞更多信息,并不代表本網(wǎng)贊同其觀點(diǎn)。其原創(chuàng)性以及文中陳述文字和內(nèi)容未經(jīng)本站證實(shí),對本文以及其中全部或者部分內(nèi)容、文字、圖片等內(nèi)容的真實(shí)性、完整性、及時(shí)性本站不作任何保證或承諾,請自行核實(shí)相關(guān)內(nèi)容。本站不承擔(dān)此類作品侵權(quán)行為的直接責(zé)任及連帶責(zé)任。如若本網(wǎng)有任何內(nèi)容侵犯您的權(quán)益,請及時(shí)發(fā)送相關(guān)信息至bireading@163.com,本站將會在48小時(shí)內(nèi)處理完畢。

豆包提出全新稀疏模型架構(gòu) UltraMem

2025-02-12 14:48:16 瀏覽量: 1868 作者: 弘樂

2月12日,據(jù)報(bào)道,豆包大模型團(tuán)隊(duì)今日宣布,字節(jié)跳動(dòng)豆包大模型團(tuán)隊(duì)提出了全新的稀疏模型架構(gòu) UltraMem,該架構(gòu)有效解決了 MoE 推理時(shí)高額的訪存問題,推理速度較 MoE 架構(gòu)提升 2-6 倍,推理成本最高可降低 83%。該研究還揭示了新架構(gòu)的 Scaling Law,證明其不僅具備優(yōu)異的 Scaling 特性,更在性能上超越了 MoE。

實(shí)驗(yàn)結(jié)果表明,訓(xùn)練規(guī)模達(dá) 2000 萬 value 的 UltraMem 模型,在同等計(jì)算資源下可同時(shí)實(shí)現(xiàn)業(yè)界領(lǐng)先的推理速度和模型性能,為構(gòu)建數(shù)十億規(guī)模 value 或 expert 開辟了新路徑。據(jù)介紹,UltraMem 是一種同樣將計(jì)算和參數(shù)解耦的稀疏模型架構(gòu),在保證模型效果的前提下解決了推理的訪存問題。實(shí)驗(yàn)結(jié)果表明,在參數(shù)和激活條件相同的情況下,UltraMem 在模型效果上超越了 MoE,并將推理速度提升了 2-6 倍。此外,在常見 batch size 規(guī)模下,UltraMem 的訪存成本幾乎與同計(jì)算量的 Dense 模型相當(dāng)。

在 Transformer 架構(gòu)下,模型的性能與其參數(shù)數(shù)量和計(jì)算復(fù)雜度呈對數(shù)關(guān)系。隨著 LLM 規(guī)模不斷增大,推理成本會急劇增加,速度變慢。盡管 MoE 架構(gòu)已經(jīng)成功將計(jì)算和參數(shù)解耦,但在推理時(shí),較小的 batch size 就會激活全部專家,導(dǎo)致訪存急劇上升,進(jìn)而使推理延遲大幅增加。

,

Copyright ©2018 鉍讀網(wǎng) All Rights Reserved.

京ICP備18051707號

京公網(wǎng)安備 11011302001633號