Nvidia uvádí PCIe kartu A100 s 80 GB HBM2e a GPUDirect Storage: přímé spojení GPU a SSD

30. 6. 2021

Nvidia uvedla své dosud nejvýkonnější výpočetní GPU pro slot PCI Express. A také zajímavou novinku: přímé připojení NVMe SSD ke GPU, takže I/O pro GPU vůbec nezatěžuje procesor. A v systému je tím GPU postavené na roveň CPU...

Stejně jako Intel, který představil procesory s integrovanou pamětí HBM2e, také Nvidia u příležitosti ISC 2021 (International Supercomputing Conference) nachystala novinku. Firma vydává výpočetní akcelerátor A100 v provedení karty do PCI Expressu s 80 GB paměti (rovněž HBM2e). Tato karta je tak nejvýkonnějším akcelerátorem GPGPU aplikací a umělé inteligence v jazyce Cuda, který se dá osadit do standardní základní desky.

Výpočetní Ampere s 80 GB pamětí jako karta PCI Express

Tato karta pokračuje v linii výpočetních GPU Ampere uvedených loni na jaře. Původní verze nese 40 GB paměti, ale na podzim pak Nvidia představila výkonnější evoluci s 80GB pamětí HBM2e. Ovšem jen v proprietárním provedení mezaninových modulů SXM4, které se dá používat jen ve speciálních jen pro tato GPU navržených deskách. Teď ale nejvýkonnější Ampere přichází i do standardního a široce kompatibilního provedení karty PCI Express.

Konfigurace GPU je stejná jako u modelu SXM4: aktivních je 108 bloků SM 7nm čipu A100, které dávají 6912 shaderů neboli jak Nvidia říká Cuda jader (což není moc přesné, jádrem se dá označovat spíš blok SM). GPU má pouze výpočetní jednotky bez specializovaného grafického hardwaru, takže chybí RT jádra, ale přirozeně jsou přítomná Tensor jádra pro akceleraci AI, těch je 432.

Karta má podle Nvidie výkon až 19,5 TFLOPS v jednoduché přesnosti (FP32) a 9,7 TFLOPS v dvojité přesnosti FP64 pak 9,7 TFLOPS. Výkon v operacích umělé inteligence na tensor jádrech je až 312 TFLOPS pro výpočty v FP16 a 624 TOPS pro výpočty INT8, pomocí techniky Sparsity, nové v architektuře Ampere, lze efektivní výkon ještě zvýšit (tím, že se část koeficientů v matici nuluje).

Paměti GPU Nvidia A100 jsou HBM2e – GPU má 6144bitovou sběrnici pro šest pouzder, ale aktivních je jen pět, takže sběrnice je 5120bitová. Původní model měl pět pouzder po celkové kapacitě 8 GB, ale v tomto modelu Nvidia používá pouzdra se zdvojnásobenou kapacitou (16 GB v jednom pouzdře), čímž vzniká ona 80GB kapacita. Tento model má ale současně navýšenou frekvenci těchto pamětí, i když zdá se ne tolik, jako verze SXM4 (v té HBM2e běží téměř na 3,2 GHz efektivně, 3186 MHz). Kartová verze do PCI Expressu má zdá se efektivní takt pamětí „jen“ 3,0 GHz. To i přes osekání šířky sběrnice dává extrémně velkou paměťovou propustnost 1935 GB/s, víc jak dvojnásobek toho, čím disponují herní grafiky GeForce RTX 3090 nebo RTX 3080 Ti.

Nvidia oznamuje PCIe verzi akcelerátoru Nvidia A100 s 80GB pamětí HBM2e (Zdroj: Nvidia, via AnandTech)

Udávaným výkonům by odpovídala frekvence 1410 MHz. Teoretické výkony Nvidia uvádí stejné, jako u SXM4 verze GPU, v praxi ale asi verze v provedení karty PCI Express bude mít nižší výkon. SXM4 modul má totiž TDP 400 W, kdežto nyní vydaná verze pro PCIe má TDP jen 300 W. Při plné zátěži proto asi její limit spotřeby o něco omezí výkon proti verzi SXM4 – oněch 1410 MHz je pravděpodobně spíše boost, který nastane pod lehčími zátěžemi, ale při vytížení může frekvence klesat níž tak, aby se spotřeba držela na 300 W.

Karta je určená k provozu jen v serverech, v běžné pracovní stanici by potřebovala vyměnit chlazení. Je totiž osazena pasivním chladičem, který počítá s profukováním velmi silným proudem vzduchu v rackové serverové skříni. Chladící výkon tohoto nuceného průvanu bude muset být o něco vyšší než pro 40GB modely této karty, které mají TDP jen 250 W.

Karta má vyvedené konektory NVLink (třetí genrace), takže je možné jich koherentně propojit víc (ovšem na rozdíl odSXM4 verze je počet omezen na nižší číslo, snad jen na dvě). K procesoru a celkově do systému už se GPU připojuje klasicky přes PCI Expresss 4.0 ×16, standardním slotem.

Dostupnost „brzy“

Kdy se tyto karty budou dát koupit, zatím Nvidia nespecifikovala přesně, údajně ale budou dostupné již brzy. Cena také nebyla sdělena, firma pro výpočetní karty doporučené ceny neuvádí, protože se počítá s tím, že karta bude typicky prodávána ve velkém hlavně OEM výrobcům serverů a dalších systémů a ne přímo uživatelům.

Nvidia Ampere je tu: obří výpočetní GA100, 8192 shaderů. Architektura jde i do GeForce (Fotogalerie)

Dalších 24 fotografií

GPUDirect Storage: NVMe disky připojené přímo k GPU

Nvidia s těmito kartami odhalila ještě jednu novinku pro výkonné výpočetní systémy: technologii GPUDirect Storage. Možná by se dala vidět určitá paralela s Direct Storage z DirectX 12 Ultimate (Nvidia označuje tuto technologii jako RTX IO). Také GPUDirect Storage slouží pro zvýšení propustnosti a výkonu úložiště při nahrávání dat pro potřeby výpočtů na GPU.

Nvidia GPUDirect Storage(Zdroj: Nvidia, via AnandTech)

Ovšem tato výpočetní verze se liší od herní verze pro hráče. Místo aby SSD (kterých může být i víc v RAIDu) byla připojená k procesoru a GPU k nim přistupovalo jeho prostřednictvím, s těmito disky/moduly komunikuje přímo GPU. Jsou totiž osazená za přepínačem PCI Express, na nějž je napojené jak GPU, tak i CPU (aby se k datům také dostalo). Když tedy GPU potřebují dostávat data z úložiště, nahrávají si je přímo přes tento přepínač a neobtěžují CPU. To tak má více volného výkonu, protože odpadá zátěž, kterou by generovala obsluha I/O provozu mezi GPU a SSD (zátěž CPU je podle Nvidie 3× nižší).

GPU rovnocenný pán v systému

Také I/O výkon, který budou moci GPU z SSD vytáhnout, by měl být vyšší, než kdyby I/O šlo přes procesor. Toto je docela zajímavá inovace pro servery a výpočetní klastry. Je na tom také vidět názor Nvidie, že GPU coby výpočetní akcelerátor je třeba vnímat v počítači ne jako „sluhu“, podřízeného procesoru, ale jako přinejmenším rovnocennou komponentu. Nvidia sama spíš GPU už prezentuje jako tu důležitější část, což ovšem samozřejmě souvisí s tím, na jaký trh se zaměřuje a jaký produkt nabízí.

Zdroje: AnandTech

Vstoupit do diskuse (5 názorů)

Jan Olšan

Témata:

https://wccftech.com/amd-instinct-mi200-cdna-2-aldebaran-gpu-die-visualized-128-compute-units-128-gb-hbm2e-capacity/

vanuch

Sdílet

Výpočetní Ampere s 80 GB pamětí jako karta PCI Express

Dostupnost „brzy“

Nvidia Ampere je tu: obří výpočetní GA100, 8192 shaderů. Architektura jde i do GeForce (Fotogalerie)

GPUDirect Storage: NVMe disky připojené přímo k GPU

GPU rovnocenný pán v systému

Autor článku

Jan Olšan

Témata:

Nejnovější

Anketa

Nakupujete u čínských prodejců?

Témata

Návody a tipy

Jak na Netflixu najít perfektní film během pár sekund? Tajnou zkratkou jsou skryté kódy ve vyhledávání

Usínáte pravidelně u YouTube? Nová funkce vám ušetří peníze za elektřinu

Jak vložit elektronický podpis do PDF dokumentu? Jde to snadno a zdarma

Jak zjistit heslo Wi-Fi sítě, ke které jste připojeni? Na počítači s Windows nebo na smartphonu snadno

Šest nejlepších vychytávek od Mapy.cz. Znáte je všechny?

Intel končí s plány na x86S, navrací se ke standardní x86, Qualcomm vyhrál dílčí bitvu o ARM

Evropský Starlink se rozjíždí, Rusko zase testovalo odpojení od internetu, ruské zneužití softwaru…

Reklama přímo v systému televize? Kdyby nešla vypnout, koleduje si Philips o problém

OSA chce 90 Kč z každého chytrého telefonu, Nejvyšší soud souhlasí

Češi vyslali svařovacího robota do vesmíru a brzy to zkusí znovu. Připravují se však na víc

Tuzemské cestovní náhrady v roce 2025

Zálohování s Baculou: otevřený systém pro komplexní scénáře

Krátké vlny: Priority polského předsednictví a útoky na cloudovou infrastrukturu

Přinášíme souhrn příběhů podnikatelů roku 2024. Inspirujte se jejich nadšením

Nvidia uvádí PCIe kartu A100 s 80 GB HBM2e a GPUDirect Storage: přímé spojení GPU a SSD

Sdílet

Výpočetní Ampere s 80 GB pamětí jako karta PCI Express

Dostupnost „brzy“

Nvidia Ampere je tu: obří výpočetní GA100, 8192 shaderů. Architektura jde i do GeForce (Fotogalerie)

GPUDirect Storage: NVMe disky připojené přímo k GPU

GPU rovnocenný pán v systému

Autor článku

Anketa

Nakupujete u čínských prodejců?

Kvíz týdne

Návody a tipy

Z našich webů

Intel končí s plány na x86S, navrací se ke standardní x86, Qualcomm vyhrál dílčí bitvu o ARM

Evropský Starlink se rozjíždí, Rusko zase testovalo odpojení od internetu, ruské zneužití softwaru…

Reklama přímo v systému televize? Kdyby nešla vypnout, koleduje si Philips o problém

OSA chce 90 Kč z každého chytrého telefonu, Nejvyšší soud souhlasí

Češi vyslali svařovacího robota do vesmíru a brzy to zkusí znovu. Připravují se však na víc

Tuzemské cestovní náhrady v roce 2025

Zálohování s Baculou: otevřený systém pro komplexní scénáře

Krátké vlny: Priority polského předsednictví a útoky na cloudovou infrastrukturu

Přinášíme souhrn příběhů podnikatelů roku 2024. Inspirujte se jejich nadšením

Dále u nás najdete

Tuzemské cestovní náhrady v roce 2025

Počítače s procesory AMD a Intel se dočkají některých Copilot+ funkcí

Vánoce v minulosti: Oplzlé koledy, bujaré veselí a na večeři hrachová kaše.

Operátoři testují nástroj proti podvrženým mobilním číslům

Raspberry Pi má nový počítač v klávesnici a monitor

Rekord Lindy Bartošové. Slast je na Wave nejúspěšnější

Neplaťte si IT kurzy sami, využijte dotace od EU

Nedostatečné zabezpečení koncových zařízení ohrožuje firmy

Šťastné a veselé, globální výdaje na IT vzrostou bezmála o desetinu

Tyhle věci nezapomeňte do konce roku udělat, ušetříte tisíce

OpenAI uvádí ChatGPT o1 Pro – za 200 dolarů měsíčně

Změna komunikace Petra Fialy se nepovedla, je v ní vidět křečovitost

Hranolky, pizza, tatarák: příběhy pokrmů jsou často vymyšlené

Změny v sociálním pojištění od roku 2025 v oblasti zaměstnávání

Vytvořil Google první použitelný kvantový počítač?

Na počítači od Apple nemusíte mít jen macOS

I diabetici si mohou dát cukroví. Místo piva však raději střik

Zranitelnost v Google Chrome umožňuje vzdálené spuštění kódu

Díky aplikaci placené pojišťovnou se povedlo objevit devět melanomů

Technologické trendy, které se v roce 2025 nestanou