欧美三级不卡/成人97视频/四虎成人精品永久免费av九九 /国产一区二区精品91 - 成人三级在线播放

DeepSeek開(kāi)源DeepGEMM代碼庫(kù) 提供高效FP8通用矩陣乘法支持

2025-02-26 17:19:08   |   探索者   |   1333

2月26日,在開(kāi)源周的第三天,DeepSeek宣布正式開(kāi)放其DeepGEMM代碼庫(kù),進(jìn)一步推動(dòng)人工智能與深度學(xué)習(xí)領(lǐng)域的技術(shù)進(jìn)步。作為一款專為簡(jiǎn)潔高效的FP8通用矩陣乘法(GEMM)設(shè)計(jì)的工具,DeepGEMM在V3/R1訓(xùn)練和推理過(guò)程中提供了強(qiáng)大的支持,特別適合普通和專家混合(MoE)分組的GEMM運(yùn)算。

DeepGEMM的設(shè)計(jì)注重簡(jiǎn)潔和高效,支持不同矩陣形狀的高效計(jì)算,能夠輕松適應(yīng)FP8精度需求的訓(xùn)練和推理任務(wù)。庫(kù)采用CUDA編寫,安裝過(guò)程不需要編譯,通過(guò)在運(yùn)行時(shí)動(dòng)態(tài)使用輕量級(jí)即時(shí)編譯模塊來(lái)編譯所有內(nèi)核,這使得使用過(guò)程非常便捷。盡管DeepGEMM的代碼量?jī)H約300行,它在多種矩陣形狀下的計(jì)算性能表現(xiàn)已經(jīng)超越了專家調(diào)優(yōu)的庫(kù)。

在測(cè)試中,DeepGEMM展現(xiàn)了極為出色的計(jì)算性能。DeepSeek團(tuán)隊(duì)在英偉達(dá)H800上使用NVCC 12.8對(duì)DeepGEMM進(jìn)行測(cè)試,結(jié)果顯示該庫(kù)的計(jì)算性能最高可達(dá)到1358 TFLOPS,內(nèi)存帶寬可達(dá)到2668 GB/s。與基于CUTLASS 3.6的優(yōu)化實(shí)現(xiàn)相比,DeepGEMM在計(jì)算速度上可提速最高達(dá)2.7倍。此外,在分組GEMM(MoE模型)的連續(xù)性布局和掩碼布局下,DeepGEMM可實(shí)現(xiàn)多達(dá)1.2倍的性能提升。

目前,DeepGEMM僅支持英偉達(dá)Hopper架構(gòu)運(yùn)算,針對(duì)FP8張量核心的累加不精確問(wèn)題,DeepGEMM采用了CUDA核心的兩級(jí)累加(提升)方法,進(jìn)一步提高了運(yùn)算精度。該代碼庫(kù)的靈活性和高效性使得它在深度學(xué)習(xí)和AI推理中具有廣泛的應(yīng)用前景。

要使用DeepGEMM,用戶的環(huán)境需要滿足以下要求:

支持Hopper架構(gòu)的GPU,sm_90a

Python 3.8及以上

CUDA 12.3及以上(推薦12.8)

PyTorch 2.1及以上

CUTLASS 3.6及以上

特別提醒:本網(wǎng)信息來(lái)自于互聯(lián)網(wǎng),目的在于傳遞更多信息,并不代表本網(wǎng)贊同其觀點(diǎn)。其原創(chuàng)性以及文中陳述文字和內(nèi)容未經(jīng)本站證實(shí),對(duì)本文以及其中全部或者部分內(nèi)容、文字、圖片等內(nèi)容的真實(shí)性、完整性、及時(shí)性本站不作任何保證或承諾,請(qǐng)自行核實(shí)相關(guān)內(nèi)容。本站不承擔(dān)此類作品侵權(quán)行為的直接責(zé)任及連帶責(zé)任。如若本網(wǎng)有任何內(nèi)容侵犯您的權(quán)益,請(qǐng)及時(shí)發(fā)送相關(guān)信息至bireading@163.com,本站將會(huì)在48小時(shí)內(nèi)處理完畢。

DeepSeek開(kāi)源DeepGEMM代碼庫(kù) 提供高效FP8通用矩陣乘法支持

2025-02-26 17:19:08 瀏覽量: 1333 作者: 探索者

2月26日,在開(kāi)源周的第三天,DeepSeek宣布正式開(kāi)放其DeepGEMM代碼庫(kù),進(jìn)一步推動(dòng)人工智能與深度學(xué)習(xí)領(lǐng)域的技術(shù)進(jìn)步。作為一款專為簡(jiǎn)潔高效的FP8通用矩陣乘法(GEMM)設(shè)計(jì)的工具,DeepGEMM在V3/R1訓(xùn)練和推理過(guò)程中提供了強(qiáng)大的支持,特別適合普通和專家混合(MoE)分組的GEMM運(yùn)算。

DeepGEMM的設(shè)計(jì)注重簡(jiǎn)潔和高效,支持不同矩陣形狀的高效計(jì)算,能夠輕松適應(yīng)FP8精度需求的訓(xùn)練和推理任務(wù)。庫(kù)采用CUDA編寫,安裝過(guò)程不需要編譯,通過(guò)在運(yùn)行時(shí)動(dòng)態(tài)使用輕量級(jí)即時(shí)編譯模塊來(lái)編譯所有內(nèi)核,這使得使用過(guò)程非常便捷。盡管DeepGEMM的代碼量?jī)H約300行,它在多種矩陣形狀下的計(jì)算性能表現(xiàn)已經(jīng)超越了專家調(diào)優(yōu)的庫(kù)。

在測(cè)試中,DeepGEMM展現(xiàn)了極為出色的計(jì)算性能。DeepSeek團(tuán)隊(duì)在英偉達(dá)H800上使用NVCC 12.8對(duì)DeepGEMM進(jìn)行測(cè)試,結(jié)果顯示該庫(kù)的計(jì)算性能最高可達(dá)到1358 TFLOPS,內(nèi)存帶寬可達(dá)到2668 GB/s。與基于CUTLASS 3.6的優(yōu)化實(shí)現(xiàn)相比,DeepGEMM在計(jì)算速度上可提速最高達(dá)2.7倍。此外,在分組GEMM(MoE模型)的連續(xù)性布局和掩碼布局下,DeepGEMM可實(shí)現(xiàn)多達(dá)1.2倍的性能提升。

目前,DeepGEMM僅支持英偉達(dá)Hopper架構(gòu)運(yùn)算,針對(duì)FP8張量核心的累加不精確問(wèn)題,DeepGEMM采用了CUDA核心的兩級(jí)累加(提升)方法,進(jìn)一步提高了運(yùn)算精度。該代碼庫(kù)的靈活性和高效性使得它在深度學(xué)習(xí)和AI推理中具有廣泛的應(yīng)用前景。

要使用DeepGEMM,用戶的環(huán)境需要滿足以下要求:

支持Hopper架構(gòu)的GPU,sm_90a

Python 3.8及以上

CUDA 12.3及以上(推薦12.8)

PyTorch 2.1及以上

CUTLASS 3.6及以上

,

Copyright ©2018 鉍讀網(wǎng) All Rights Reserved.

京ICP備18051707號(hào)

京公網(wǎng)安備 11011302001633號(hào)