英偉達(dá)Blackwell架構(gòu)GB300芯片實(shí)測 4塊可完成16塊H100任務(wù)
8月27日,據(jù)科技媒體WccfTech報(bào)道,云服務(wù)提供商CoreWeave近日完成了一項(xiàng)基于DeepSeek R1推理模型的性能測試,結(jié)果顯示英偉達(dá)新一代Blackwell架構(gòu)GB300芯片展現(xiàn)出顯著的性能突破。測試表明,僅需4塊GB300芯片即可完成原本需要16塊H100 GPU處理的推理任務(wù),單卡吞吐量提升高達(dá)6倍,標(biāo)志著AI計(jì)算效率實(shí)現(xiàn)代際跨越。
CoreWeave此次測試重點(diǎn)對(duì)比了Blackwell架構(gòu)GB300 NVL72平臺(tái)與上一代H100 GPU的性能差異。得益于英偉達(dá)全面升級(jí)的芯片架構(gòu)、大幅增強(qiáng)的內(nèi)存系統(tǒng)及帶寬能力,GB300在運(yùn)行DeepSeek R1等復(fù)雜推理模型時(shí)表現(xiàn)出色。該平臺(tái)支持最高37TB(可擴(kuò)展至40TB)的內(nèi)存容量和每秒130TB的內(nèi)存帶寬,通過4路并行設(shè)計(jì)有效減少GPU間數(shù)據(jù)分割需求,并借助NVLink與NVSwitch高速互連技術(shù)顯著提升通信效率。
CoreWeave強(qiáng)調(diào),此次性能提升不僅體現(xiàn)在理論算力(FLOPs)層面,更表現(xiàn)為整個(gè)系統(tǒng)架構(gòu)在實(shí)際業(yè)務(wù)環(huán)境中的綜合優(yōu)化。對(duì)于需部署大規(guī)模AI模型的企業(yè)用戶而言,GB300 NVL72平臺(tái)提供了更優(yōu)的擴(kuò)展性、更低的延遲表現(xiàn)和更高的能效比,有望幫助客戶以更低的成本、更快的速度落地AI服務(wù)。