Nvidia uvádí PCIe kartu A100 s 80 GB HBM2e a GPUDirect Storage: přímé spojení GPU a SSD

30. 6. 2021

Nvidia uvedla své dosud nejvýkonnější výpočetní GPU pro slot PCI Express. A také zajímavou novinku: přímé připojení NVMe SSD ke GPU, takže I/O pro GPU vůbec nezatěžuje procesor. A v systému je tím GPU postavené na roveň CPU...

Stejně jako Intel, který představil procesory s integrovanou pamětí HBM2e, také Nvidia u příležitosti ISC 2021 (International Supercomputing Conference) nachystala novinku. Firma vydává výpočetní akcelerátor A100 v provedení karty do PCI Expressu s 80 GB paměti (rovněž HBM2e). Tato karta je tak nejvýkonnějším akcelerátorem GPGPU aplikací a umělé inteligence v jazyce Cuda, který se dá osadit do standardní základní desky.

Výpočetní Ampere s 80 GB pamětí jako karta PCI Express

Tato karta pokračuje v linii výpočetních GPU Ampere uvedených loni na jaře. Původní verze nese 40 GB paměti, ale na podzim pak Nvidia představila výkonnější evoluci s 80GB pamětí HBM2e. Ovšem jen v proprietárním provedení mezaninových modulů SXM4, které se dá používat jen ve speciálních jen pro tato GPU navržených deskách. Teď ale nejvýkonnější Ampere přichází i do standardního a široce kompatibilního provedení karty PCI Express.

Konfigurace GPU je stejná jako u modelu SXM4: aktivních je 108 bloků SM 7nm čipu A100, které dávají 6912 shaderů neboli jak Nvidia říká Cuda jader (což není moc přesné, jádrem se dá označovat spíš blok SM). GPU má pouze výpočetní jednotky bez specializovaného grafického hardwaru, takže chybí RT jádra, ale přirozeně jsou přítomná Tensor jádra pro akceleraci AI, těch je 432.

Karta má podle Nvidie výkon až 19,5 TFLOPS v jednoduché přesnosti (FP32) a 9,7 TFLOPS v dvojité přesnosti FP64 pak 9,7 TFLOPS. Výkon v operacích umělé inteligence na tensor jádrech je až 312 TFLOPS pro výpočty v FP16 a 624 TOPS pro výpočty INT8, pomocí techniky Sparsity, nové v architektuře Ampere, lze efektivní výkon ještě zvýšit (tím, že se část koeficientů v matici nuluje).

Paměti GPU Nvidia A100 jsou HBM2e – GPU má 6144bitovou sběrnici pro šest pouzder, ale aktivních je jen pět, takže sběrnice je 5120bitová. Původní model měl pět pouzder po celkové kapacitě 8 GB, ale v tomto modelu Nvidia používá pouzdra se zdvojnásobenou kapacitou (16 GB v jednom pouzdře), čímž vzniká ona 80GB kapacita. Tento model má ale současně navýšenou frekvenci těchto pamětí, i když zdá se ne tolik, jako verze SXM4 (v té HBM2e běží téměř na 3,2 GHz efektivně, 3186 MHz). Kartová verze do PCI Expressu má zdá se efektivní takt pamětí „jen“ 3,0 GHz. To i přes osekání šířky sběrnice dává extrémně velkou paměťovou propustnost 1935 GB/s, víc jak dvojnásobek toho, čím disponují herní grafiky GeForce RTX 3090 nebo RTX 3080 Ti.

Nvidia oznamuje PCIe verzi akcelerátoru Nvidia A100 s 80GB pamětí HBM2e (Zdroj: Nvidia, via AnandTech)

Udávaným výkonům by odpovídala frekvence 1410 MHz. Teoretické výkony Nvidia uvádí stejné, jako u SXM4 verze GPU, v praxi ale asi verze v provedení karty PCI Express bude mít nižší výkon. SXM4 modul má totiž TDP 400 W, kdežto nyní vydaná verze pro PCIe má TDP jen 300 W. Při plné zátěži proto asi její limit spotřeby o něco omezí výkon proti verzi SXM4 – oněch 1410 MHz je pravděpodobně spíše boost, který nastane pod lehčími zátěžemi, ale při vytížení může frekvence klesat níž tak, aby se spotřeba držela na 300 W.

Karta je určená k provozu jen v serverech, v běžné pracovní stanici by potřebovala vyměnit chlazení. Je totiž osazena pasivním chladičem, který počítá s profukováním velmi silným proudem vzduchu v rackové serverové skříni. Chladící výkon tohoto nuceného průvanu bude muset být o něco vyšší než pro 40GB modely této karty, které mají TDP jen 250 W.

Karta má vyvedené konektory NVLink (třetí genrace), takže je možné jich koherentně propojit víc (ovšem na rozdíl odSXM4 verze je počet omezen na nižší číslo, snad jen na dvě). K procesoru a celkově do systému už se GPU připojuje klasicky přes PCI Expresss 4.0 ×16, standardním slotem.

Dostupnost „brzy“

Kdy se tyto karty budou dát koupit, zatím Nvidia nespecifikovala přesně, údajně ale budou dostupné již brzy. Cena také nebyla sdělena, firma pro výpočetní karty doporučené ceny neuvádí, protože se počítá s tím, že karta bude typicky prodávána ve velkém hlavně OEM výrobcům serverů a dalších systémů a ne přímo uživatelům.

Nvidia Ampere je tu: obří výpočetní GA100, 8192 shaderů. Architektura jde i do GeForce (Fotogalerie)

Dalších 24 fotografií

GPUDirect Storage: NVMe disky připojené přímo k GPU

Nvidia s těmito kartami odhalila ještě jednu novinku pro výkonné výpočetní systémy: technologii GPUDirect Storage. Možná by se dala vidět určitá paralela s Direct Storage z DirectX 12 Ultimate (Nvidia označuje tuto technologii jako RTX IO). Také GPUDirect Storage slouží pro zvýšení propustnosti a výkonu úložiště při nahrávání dat pro potřeby výpočtů na GPU.

Nvidia GPUDirect Storage(Zdroj: Nvidia, via AnandTech)

Ovšem tato výpočetní verze se liší od herní verze pro hráče. Místo aby SSD (kterých může být i víc v RAIDu) byla připojená k procesoru a GPU k nim přistupovalo jeho prostřednictvím, s těmito disky/moduly komunikuje přímo GPU. Jsou totiž osazená za přepínačem PCI Express, na nějž je napojené jak GPU, tak i CPU (aby se k datům také dostalo). Když tedy GPU potřebují dostávat data z úložiště, nahrávají si je přímo přes tento přepínač a neobtěžují CPU. To tak má více volného výkonu, protože odpadá zátěž, kterou by generovala obsluha I/O provozu mezi GPU a SSD (zátěž CPU je podle Nvidie 3× nižší).

GPU rovnocenný pán v systému

Také I/O výkon, který budou moci GPU z SSD vytáhnout, by měl být vyšší, než kdyby I/O šlo přes procesor. Toto je docela zajímavá inovace pro servery a výpočetní klastry. Je na tom také vidět názor Nvidie, že GPU coby výpočetní akcelerátor je třeba vnímat v počítači ne jako „sluhu“, podřízeného procesoru, ale jako přinejmenším rovnocennou komponentu. Nvidia sama spíš GPU už prezentuje jako tu důležitější část, což ovšem samozřejmě souvisí s tím, na jaký trh se zaměřuje a jaký produkt nabízí.

Zdroje: AnandTech

Vstoupit do diskuse (5 názorů)

Jan Olšan

Témata:

https://wccftech.com/amd-instinct-mi200-cdna-2-aldebaran-gpu-die-visualized-128-compute-units-128-gb-hbm2e-capacity/

vanuch

Sdílet

Výpočetní Ampere s 80 GB pamětí jako karta PCI Express

Dostupnost „brzy“

Nvidia Ampere je tu: obří výpočetní GA100, 8192 shaderů. Architektura jde i do GeForce (Fotogalerie)

GPUDirect Storage: NVMe disky připojené přímo k GPU

GPU rovnocenný pán v systému

Autor článku

Jan Olšan

Témata:

Nejnovější

Anketa

Stali jste se někdy terčem nějakého podvodu?

Témata

Návody a tipy

Jak na Netflixu najít perfektní film během pár sekund? Tajnou zkratkou jsou skryté kódy ve vyhledávání

Usínáte pravidelně u YouTube? Nová funkce vám ušetří peníze za elektřinu

Jak vložit elektronický podpis do PDF dokumentu? Jde to snadno a zdarma

Jak zjistit heslo Wi-Fi sítě, ke které jste připojeni? Na počítači s Windows nebo na smartphonu snadno

Šest nejlepších vychytávek od Mapy.cz. Znáte je všechny?

Optimalizace pro Ryzeny s 3D V-Cache i podpora běhu Radeonů na LoongArch míří do jádra

Koalice chce na povinnosti z digitální ústavy o dva roky více, hledá se viník zpoždění

Když malý usnul, otevírala notebook. Nyní má úspěšný byznys pro nejmenší

Google se musí zbavit Chrome, Androidu a monopolu na vyhledávání, požaduje Ministerstvo…

Musk chce upgradovat státní IT systémy, návrh na rozdělení Googlu, nový minipočítač od Microsoftu

Stříteský: Obchodníci dostávají v zahraničí vyšší sankce a slevy mají výrazně omezené

Srovnání linuxových kompresorů dat: různé kompresní poměry a rychlost

Krátké vlny: Odklad práva na digitální služby a Milouš Jakeš o kyberbezpečnosti

Jak uplatní pracující důchodci u zaměstnavatele slevu na pojistném?

Nvidia uvádí PCIe kartu A100 s 80 GB HBM2e a GPUDirect Storage: přímé spojení GPU a SSD

Sdílet

Výpočetní Ampere s 80 GB pamětí jako karta PCI Express

Dostupnost „brzy“

Nvidia Ampere je tu: obří výpočetní GA100, 8192 shaderů. Architektura jde i do GeForce (Fotogalerie)

GPUDirect Storage: NVMe disky připojené přímo k GPU

GPU rovnocenný pán v systému

Autor článku

Anketa

Stali jste se někdy terčem nějakého podvodu?

Kvíz týdne

Návody a tipy

Z našich webů

Optimalizace pro Ryzeny s 3D V-Cache i podpora běhu Radeonů na LoongArch míří do jádra

Koalice chce na povinnosti z digitální ústavy o dva roky více, hledá se viník zpoždění

Když malý usnul, otevírala notebook. Nyní má úspěšný byznys pro nejmenší

Google se musí zbavit Chrome, Androidu a monopolu na vyhledávání, požaduje Ministerstvo…

Musk chce upgradovat státní IT systémy, návrh na rozdělení Googlu, nový minipočítač od Microsoftu

Stříteský: Obchodníci dostávají v zahraničí vyšší sankce a slevy mají výrazně omezené

Srovnání linuxových kompresorů dat: různé kompresní poměry a rychlost

Krátké vlny: Odklad práva na digitální služby a Milouš Jakeš o kyberbezpečnosti

Jak uplatní pracující důchodci u zaměstnavatele slevu na pojistném?

Dále u nás najdete

Souvisí zákaz Huawei i s nákupem stíhaček F-35?

Nitroděložní tělíska jsou spolehlivá a hodí se i pro mladé ženy

Opakující se melodii v hlavě zkuste zahnat žvýkačkou

Firmy mají řešit byznys, ne hledat účtenky, razí Fidoo

Šestka nad čtyřkou? Zastaralé. Čtyřka nad šestkou!

První pacientka podstoupila genovou terapii bránící slepotě

Papírové letáky budou zpoplatněny, může jít o desetník za kus

Chcete někoho, kdo vám opravdu rozumí? Zkuste AI

World of Warcraft slaví 20 let a stále se hraje

Na svátek 17. listopadu to s nákupy nebude moc složité

Vánoční slevy operátorů? Daleko za očekáváním

V aplikaci Záchranka je rozcestník péče pro nevyléčitelně nemocné

Kdy se vyhneme platbě daně z příjmů při prodeji nemovitosti?

Akutní srdeční selhání může být horší než infarkt

Chrome OS se zřejmě promění v Android

SSD už také mají obrovskou kapacitu – až 122 TB

Gamingu kralují konzole, preferují je dvě třetiny kupujících

Opatrně s kofeinovým práškem, už jedna lžička je životu nebezpečná

Youtubeři a influenceři se musí registrovat

Ať Google prodá prohlížeč Chrome, navrhuje ministerstvo