Nvidia uvádí PCIe kartu A100 s 80 GB HBM2e a GPUDirect Storage: přímé spojení GPU a SSD

30. 6. 2021

Sdílet

 Autor: Nvidia
Nvidia uvedla své dosud nejvýkonnější výpočetní GPU pro slot PCI Express. A také zajímavou novinku: přímé připojení NVMe SSD ke GPU, takže I/O pro GPU vůbec nezatěžuje procesor. A v systému je tím GPU  postavené na roveň CPU...

Stejně jako Intel, který představil procesory s integrovanou pamětí HBM2e, také Nvidia u příležitosti ISC 2021 (International Supercomputing Conference) nachystala novinku. Firma vydává výpočetní akcelerátor A100 v provedení karty do PCI Expressu s 80 GB paměti (rovněž HBM2e). Tato karta je tak nejvýkonnějším akcelerátorem GPGPU aplikací a umělé inteligence v jazyce Cuda, který se dá osadit do standardní základní desky.

Výpočetní Ampere s 80 GB pamětí jako karta PCI Express

Tato karta pokračuje v linii výpočetních GPU Ampere uvedených loni na jaře. Původní verze nese 40 GB paměti, ale na podzim pak Nvidia představila výkonnější evoluci s 80GB pamětí HBM2e. Ovšem jen v proprietárním provedení mezaninových modulů SXM4, které se dá používat jen ve speciálních jen pro tato GPU navržených deskách. Teď ale nejvýkonnější Ampere přichází i do standardního a široce kompatibilního provedení karty PCI Express.

Konfigurace GPU je stejná jako u modelu SXM4: aktivních je 108 bloků SM 7nm čipu A100, které dávají 6912 shaderů neboli jak Nvidia říká Cuda jader (což není moc přesné, jádrem se dá označovat spíš blok SM). GPU má pouze výpočetní jednotky bez specializovaného grafického hardwaru, takže chybí RT jádra, ale přirozeně jsou přítomná Tensor jádra pro akceleraci AI, těch je 432.

Karta má podle Nvidie výkon až 19,5 TFLOPS v jednoduché přesnosti (FP32) a 9,7 TFLOPS v dvojité přesnosti FP64 pak 9,7 TFLOPS. Výkon v operacích umělé inteligence na tensor jádrech je až 312 TFLOPS pro výpočty v FP16 a 624 TOPS pro výpočty INT8, pomocí techniky Sparsity, nové v architektuře Ampere, lze efektivní výkon ještě zvýšit (tím, že se část koeficientů v matici nuluje).

Paměti GPU Nvidia A100 jsou HBM2e – GPU má 6144bitovou sběrnici pro šest pouzder, ale aktivních je jen pět, takže sběrnice je 5120bitová. Původní model měl pět pouzder po celkové kapacitě 8 GB, ale v tomto modelu Nvidia používá pouzdra se zdvojnásobenou kapacitou (16 GB v jednom pouzdře), čímž vzniká ona 80GB kapacita. Tento model má ale současně navýšenou frekvenci těchto pamětí, i když zdá se ne tolik, jako verze SXM4 (v té HBM2e běží téměř na 3,2 GHz efektivně, 3186 MHz). Kartová verze do PCI Expressu má zdá se efektivní takt pamětí „jen“ 3,0 GHz. To i přes osekání šířky sběrnice dává extrémně velkou paměťovou propustnost 1935 GB/s, víc jak dvojnásobek toho, čím disponují herní grafiky GeForce RTX 3090 nebo RTX 3080 Ti.

Nvidia oznamuje PCIe verzi akcelerátoru Nvidia A100 s 80GB pamětí HBM2e Nvidia oznamuje PCIe verzi akcelerátoru Nvidia A100 s 80GB pamětí HBM2e (Zdroj: Nvidia, via AnandTech)

Udávaným výkonům by odpovídala frekvence 1410 MHz. Teoretické výkony Nvidia uvádí stejné, jako u SXM4 verze GPU, v praxi ale asi verze v provedení karty PCI Express bude mít nižší výkon. SXM4 modul má totiž TDP 400 W, kdežto nyní vydaná verze pro PCIe má TDP jen 300 W. Při plné zátěži proto asi její limit spotřeby o něco omezí výkon proti verzi SXM4 – oněch 1410 MHz je pravděpodobně spíše boost, který nastane pod lehčími zátěžemi, ale při vytížení může frekvence klesat níž tak, aby se spotřeba držela na 300 W.

Karta je určená k provozu jen v serverech, v běžné pracovní stanici by potřebovala vyměnit chlazení. Je totiž osazena pasivním chladičem, který počítá s profukováním velmi silným proudem vzduchu v rackové serverové skříni. Chladící výkon tohoto nuceného průvanu bude muset být o něco vyšší než pro 40GB modely této karty, které mají TDP jen 250 W.

Karta má vyvedené konektory NVLink (třetí genrace), takže je možné jich koherentně propojit víc (ovšem na rozdíl odSXM4 verze je počet omezen na nižší číslo, snad jen na dvě). K procesoru a celkově do systému už se GPU připojuje klasicky přes PCI Expresss 4.0 ×16, standardním slotem.

Dostupnost „brzy“

Kdy se tyto karty budou dát koupit, zatím Nvidia nespecifikovala přesně, údajně ale budou dostupné již brzy. Cena také nebyla sdělena, firma pro výpočetní karty doporučené ceny neuvádí, protože se počítá s tím, že karta bude typicky prodávána ve velkém hlavně OEM výrobcům serverů a dalších systémů a ne přímo uživatelům.

Nvidia Ampere je tu: obří výpočetní GA100, 8192 shaderů. Architektura jde i do GeForce (Fotogalerie)

GPUDirect Storage: NVMe disky připojené přímo k GPU

Nvidia s těmito kartami odhalila ještě jednu novinku pro výkonné výpočetní systémy: technologii GPUDirect Storage. Možná by se dala vidět určitá paralela s Direct Storage z DirectX 12 Ultimate (Nvidia označuje tuto technologii jako RTX IO). Také GPUDirect Storage slouží pro zvýšení propustnosti a výkonu úložiště při nahrávání dat pro potřeby výpočtů na GPU.

Nvidia GPUDirect Storage Nvidia GPUDirect Storage(Zdroj: Nvidia, via AnandTech)

Ovšem tato výpočetní verze se liší od herní verze pro hráče. Místo aby SSD (kterých může být i víc v RAIDu) byla připojená k procesoru a GPU k nim přistupovalo jeho prostřednictvím, s těmito disky/moduly komunikuje přímo GPU. Jsou totiž osazená za přepínačem PCI Express, na nějž je napojené jak GPU, tak i CPU (aby se k datům také dostalo). Když tedy GPU potřebují dostávat data z úložiště, nahrávají si je přímo přes tento přepínač a neobtěžují CPU. To tak má více volného výkonu, protože odpadá zátěž, kterou by generovala obsluha I/O provozu mezi GPU a SSD (zátěž CPU je podle Nvidie 3× nižší).

bitcoin školení listopad 24

GPU rovnocenný pán v systému

Také I/O výkon, který budou moci GPU z SSD vytáhnout, by měl být vyšší, než kdyby I/O šlo přes procesor. Toto je docela zajímavá inovace pro servery a výpočetní klastry. Je na tom také vidět názor Nvidie, že GPU coby výpočetní akcelerátor je třeba vnímat v počítači ne jako „sluhu“, podřízeného procesoru, ale jako přinejmenším rovnocennou komponentu. Nvidia sama spíš GPU už prezentuje jako tu důležitější část, což ovšem samozřejmě souvisí s tím, na jaký trh se zaměřuje a jaký produkt nabízí.

Zdroje: AnandTech