NVIDIA推出Spectrum-X 超大規(guī)模生成式AI的加速以太網(wǎng)平臺
5月30日,英偉達首席執(zhí)行官黃仁勛在 Computex 計算機技術大會開幕式上發(fā)表了一系列新產(chǎn)品,其中包括一種新型以太網(wǎng)交換機,專門用于為人工智能移動大量數(shù)據(jù)任務。 “我們如何引入一個新的以太網(wǎng),向后兼容所有東西,將每個數(shù)據(jù)中心變成一個生成人工智能數(shù)據(jù)中心?” 黃仁勛在他的主題演講中提出。“這是我們第一次將高性能計算的能力帶入以太網(wǎng)市場。”
據(jù)黃仁勛稱,Spectrum-X 是眾所周知的以太網(wǎng)產(chǎn)品系列,是“世界上第一個用于 AI 的高性能以太網(wǎng)”。網(wǎng)絡高級副總裁 Gilad Shainer 在媒體簡報會上表示,該技術的一個關鍵特性是它“不會丟失數(shù)據(jù)包”。 其表示,Spectrum-X 的第一個迭代版本是 Spectrum-4,它被稱為“世界上第一個專為 AI 網(wǎng)絡構建的 51Tb/sec 以太網(wǎng)交換機”。該交換機與 Nvidia 的 BlueField 數(shù)據(jù)處理單元或 DPU、處理數(shù)據(jù)獲取和排隊的芯片以及 Nvidia 光纖收發(fā)器一起工作。該公司表示,該交換機可以端到端路由 128 個 400G 以太網(wǎng)端口,或 64 個 800G 端口。
黃仁勛在舞臺上舉起了銀色的 Spectrum-4 以太網(wǎng)交換機芯片,指出它是“巨大的”,在 90 毫米 x 90 毫米的芯片上由 1000 億個晶體管組成,芯片采用臺積電的“4N”工藝技術制造。Huang 說,該部件的運行功率為 500 瓦。
Nvidia 的芯片有可能改變以太網(wǎng)網(wǎng)絡市場。絕大多數(shù)開關硅由芯片制造商 Broadcom 提供。這些交換機出售給網(wǎng)絡設備制造商 Cisco Systems、Arista Networks、Extreme Networks、Juniper Networks 等。這些公司一直在擴展他們的設備,以更好地處理人工智能流量。 Spectrum-X 系列旨在解決數(shù)據(jù)中心分為兩種形式的問題。一種形式是 Huang 所說的“AI 工廠”,這些設施耗資數(shù)億美元用于最強大的 GPU,這些 GPU 基于 Nvidia 的 NVLink 和 Infiniband,用于 AI 訓練,服務于少量非常大的工作負載。
另一種類型的數(shù)據(jù)中心設施是 AI 云,它是多租戶的,基于以太網(wǎng),同時為客戶處理成百上千的工作負載,它專注于向 AI 消費者提供預測等事情,這將由 Spectrum-X 提供服務。
Shainer 說,Spectrum-X 能夠“以最佳方式在網(wǎng)絡中傳播流量”,使用“一種新的擁塞控制機制”,避免了網(wǎng)絡內存緩沖區(qū)中可能發(fā)生的數(shù)據(jù)包堆積路由器。
Nvidia 表示,它正在其以色列辦事處建造一臺名為 Israel-1 的測試臺計算機,這是一臺“生成式 AI 超級計算機”,使用由 H100 GPU 組成的 Dell PowerEdge XE9680 服務器在 Spectrum-4 交換機上運行數(shù)據(jù)。
除了宣布其新的以太網(wǎng)技術外,Huang 的主題演講還介紹了該公司用于 AI 的“DGX”系列計算機的新型號 DGX GH200,該公司將其稱為“用于巨人的新型大內存 AI 超級計算機”。生成人工智能模型”。
生成式 AI是指產(chǎn)生的不僅僅是分數(shù)的程序,有時是文本,有時是圖像,有時是其他工件,例如 OpenAI 的ChatGPT。GH200 是第一個配備該公司所謂的“超級芯片”的系統(tǒng),Grace Hopper 板在單個電路板上包含一個 Hopper GPU,以及 Grace CPU,一個基于 ARM 指令集的 CPU,旨在與 Intel 和 Advanced Micro Devices 的 x86 CPU 競爭。
黃仁勛說,Grace Hopper 的第一個迭代版本 GH200 已“全面投產(chǎn)”。Nvidia 在一份新聞稿中表示,“歐洲和美國的全球超大規(guī)模運營商和超級計算中心是可以使用 GH200 驅動系統(tǒng)的幾家客戶之一。”Nvidia 表示,DGX GH200 結合了 256 個超級芯片,實現(xiàn)了 1 exaflops 的組合——10 次方的 18 次方,即每秒十億、十億次浮點運算——利用了 144 TB 的共享內存。據(jù) Nvidia 稱,該計算機的速度是 2020 年發(fā)布的原始 DGX A100 機器的 500 倍。
主題演講還推出了 MGX,這是一種參考架構,可供系統(tǒng)制造商快速且經(jīng)濟高效地構建 100 多種服務器變體。Nvidia 表示,首批使用該規(guī)范的合作伙伴是 ASRock Rack、ASUS、GIGABYTE、Pegatron、QCT 和 Supermicro,其中 QCT 和 Supermicro 將于 8 月率先將系統(tǒng)推向市場。