Nvidia na GTC 2018: Quadro GV100, server DGX-2 s výkonem 2 PFLOPS a NVSwitch

28. 3. 2018

Na GTC 2018 Nvidia sice neodhalila GPU Turing ani Ampere, ale uvedla server s výkonem skoro 2 PFLOPS v AI výpočtech a přepínač logiky NVLink2.

Včera se odehrála úvodní prezentace Nvidie na její konferenci GTC 2018. Dříve se čekalo, že by na ní mohla být odhalena nová architektura GPU nebo dokonce rovnou nová generaci grafik GeForce pro herní PC. Již chvíli však kolují informace, že na ty přijde řada až později a skutečně – na GTC 2018 zatím ani nevykoukly. Ovšem Nvidia toho i tak představila poměrně dost, stavějíc ještě na architektuře Volta.

Quadro GV100

První z těchto novinek bylo oznámení nové grafické karty pro profi trh: modelu Quadro GV100. Jde jak už je vidět z názvu o kartu založenou na architektuře Volta a 12nm čipu GV100. Tedy o cosi jako o profesionální obdobu Titanu V, ovšem specifikace se liší. Quadro GV100 má v čipu GV100 aktivních 5120 shaderů (z celkových 5376) a spolu s tím 320 texturovacích jednotek a také 640 tzv. „tensor cores“, které slouží k akceleraci výpočtů pro neuronové sítě. Základní takt GPU neznáme, v boostu je taktováno na 1450 MHz. Teoretický výkon pro tuto frekvenci vychází na 14,8 TFLOPS v FP32, 29,6 TFLOPS v poloviční přesnosti FP16 a 7,4 TFLOPS v dvojité přesnosti FP64. Teoretický výkon tensor cores udává Nvidia jako 118,5 TFLOPS.

Co je na kartě proti Titanu V zajímavého, je paměťový subsystém. Použitá verze GV100 není osekaná a nese plnou 4096bitovou paměťovou sběrnici a na ní 32 GB paměti HBM2. Její efektivní takt je 1,7 GHz, což by mělo dávat propustnost 870 GB/s.

TDP karty je stanoveno na 250 W a je chlazena klasickým referenčním chladičem ve stylu Nvidie s jedním radiálním ventilátorem. Jako výstupy jsou dostupné čtyři DisplayPorty 1.4, DVI tentokrát chybí. Karta nicméně nese dvojici konektorů NVLink (místo konektorů SLI), které lze použít pro propojení dvou grafik v systému, což mělo už předchozí Quadro GP100.

Nvidia Quadro GV100

Nvidia tuto grafiku kromě obvyklých použití směřuje i na vývojovou práci s ray tracingovou grafikou na bázi technologie DirectX Raytracing (DXR) a potažmo Nvidia RTX. Quadro GV100 by mělo být dostupné již nyní nebo v blízké době u obvyklých distributorů. Proti předchozím generacím je ale výrazně dražší: oficiální cena této karty činí 9000 dolarů (s DPH 223 500 Kč, a to při dnešním poměrně dobrém kurzu). Nicméně to asi bylo nevyhnutelné, kdy už „spotřebitelský“ Titan V s čipem Volta stál tři tisíce dolarů, což už bývalo kdysi teritorium právě top modelů řady Quadro.

DGX-2 a přepínače pro NVLink2

Kromě nového Quadra oznámila Nvidia ještě nový typ svého výpočetního serveru DGX. Po DGX-1 nyní přichází DGX-2. Tento systém řídí dva Xeony Platinum z poslední generace serverových CPU Intelu a je v něm v roli výpočetních koprocesorů nainstalováno 16 grafik Tesla V100 v „mezaninovém“ provedení. Nvidia uvádí, že výkon stroje dosahuje až 1920 TFLOPS, což je součet teoretických kapacit všech GPU při použití tensor cores. Teoretický výkon v klasických výpočtech FP32 je 240 TFLOPS. Systém má pod zátěží ale také hodně slušný příkon, Nvidia uvádí 10 000 W.

Konstrukce serveru DGX-2. GPU jsou ve dvou patrech, propojených modulem s přepínači logiky NVLink2 (Zdroj: AnandTech)

Stroj DGX-2 není ovšem jen souborem procesorů a grafik, sofistikovaný je na něm hlavně způsob propojení, který z něj dělá (alespoň pro některé úlohy) pokročilejší výpočetní platformu. GPU nejsou propojená rozhraním PCI Express, ale koherentním rozhraním NVLink2, které jim umožňuje přistupovat do paměti ostatních GPU. Každé z GPU Volta má šest rozhraní NVLink2, ovšem Nvidia je nepropojila přímo.

Přepínač pro NVLink

Po vzoru pokročilejších superpočítačových klastrů vyvinula Nvidia speciální přepínač (switch) pro konektivitu NVLink2, kterým lze propojit vyšší množství GPU. Čip nazvaný NVSwitch má údajně dvě miliardy tranzistorů a vyvádí ze sebe osmnáct linek NVLink2. Všech těchto 18 linek je propojeno dohromady společným crossbarem, celková propustnost má dělat 900 GB/s. Bližší parametry sděleny nebyly, takže například nevíme, jakou má NVSwitch spotřebu.

V DGX-2 by mělo být rovnou 12 těchto přepínačů. Tesly V100 jsou zdá se všemi šesti svými NVLinky zapojeny do některého ze switchů – schéma můžete vidět na obrázku. Jedna osmičlenná skupina GPU je tedy připojena k polovině (šestici) switchů, druhé osmička k druhé šestici. Zbylé porty obou šestic přepínačů jsou zřejmě použité k vzájemnému propojení switchů, jehož povaha úplně jasná není. Teoretická kapacita přenosu mezi dvěma GPU v tomto systému je podle Nvidie 300 GB/s.

Schéma zapojení přepínačů a GPU v serveru DGX-2 (Zdroj: AnandTech)

Servery DGX-2 budou podle Nvidie stát 399 000 dolarů za jeden kus, u nás v korunách a s DPH momentálně 9,9 milionu. Kromě výše zmíněných GPU a CPU to obnáší ještě 30 TB NVMe SSD a „až 1,5 TB“ paměti DDR4 – formulace trošku budí dojem, že RAM možná není v ceně – a také 8× Infiniband a 8× 100Gb/s Ethernet jako konektivita. Systém ovšem ještě není dostupný, reálně bude na prodej až v třetím kvartálu roku.

Takto vypadá GPU GV100 na kartách Tesla V100 (Foto: Golem.de)

Tesla V100 v mezaninovém provedení (Foto: Golem.de)

Tesla V100 s 32 GB RAM

V DGX-2 jsou jinak osazené Tesly V100 s 32 GB paměti, což je upgrade proti původnímu 16GB modelu. Nvidia oznámila, že 32 GB HBM2 budou nyní mít všechny tyto karty (respektive výpočetní moduly), včetně těch, dodávaných v systémech DGX-1. Ostatní specifikace GPU jsou zachovány, podle Nvidie tedy nejde o nový model, ale spíše o cosi jako refresh.