Nvidia uvádí Voltu: obrovský 815mm² čip na 12nm procesu, HBM2 a 5376 shaderů

11. 5. 2017

GPU GV100 je nejkomplexnější počin, který zatím Nvidia vyprodukovala, a to nejen proto, že je zatím nejnovější. Architektura Volta ve své formě určené pro výpočetní nasazení a zejména neuronové sítě docela silně překračuje hranice prostého grafického procesoru.

V uplynulých týdnech a měsících se množily zprávy o tom, že Nvidia „něco chystá“. Měli jsme tu drb o letním vypuštění GPU Volta, pak také dosti nečekanou zprávu o tom, že by mohlo být vyráběno 12nm procesem. Očekávání tedy byla napjatá a Nvidia navíc tento týden pořádá svou konferenci GTC. Když tedy šéf Jen-Hsun Huang údajně předevčírem upustil, že během své hlavní prezentace na GTC oznámí nový hardware, nadšenci do grafických karet už se asi nemohli dočkat. A zklamáni nebudou, neboť Nvidia skutečně novou generaci GPU oznámila. Byť s malým háčkem, neboť je zřejmě určena ne pro herní karty, ale jen pro enterprise výpočty.

Větší než cokoliv předtím

Ovšem Volta přes to bude úctyhodný počin. Od této architektury (která se ve veřejných roadmapách Nvidie mimochodem objevila ještě dříve než Pascal) bylo zatím představeno jen jedno GPU: čip zřejmě nazvaný GV100 a na něm zbudovaný výpočetní akcelerátor Tesla V100. Představuje zřejmě absolutní highend, navazující na Teslu P100 generace Pascal. Má tedy integrované paměti typu HBM2 – v kapacitě 16 GB, s 4096bitovou sběrnicí a propustností 900 GB/s – a používá kompaktní „placaté“ provedení SXM2 pro servery.

GPU GV100 má zcela bezprecedentní velikost. Údajně měří 815 mm², přestože je skutečně vyráběn novým, 12nm výrobním procesem TSMC (což by údajně měla být evoluce 16nm procesu, nicméně v tomto případě je proces „12FFN“ údajně uzpůsoben speciálně pro Nvidii). GV100 je každopádně s velkým náskokem zatím největší GPU vůbec, složeno je údajně z 21,1 miliard tranzistorů. Půjde i o jeden z nejrozměrnějších čipů obecně, protože takovéto plochy jsou velmi vzácné, dosahovaly by je asi jen některá „big iron“ enterprise CPU.

Nvidia Tesla V100 s čipem GV100 (na vizualizaci)

To se odráží i ve specifikacích. Tesla V100 má 5120 stream procesorů (80 bloků SM) a celkem 6 MB L2 cache. Takt by zřejmě měl být okolo 1455 MHz, jelikož čip má výkon 15 TFLOPS při jednoduché přesnosti. S dvojitou přesností je to pak 7,5 TFLOPS – ta je tedy prováděna s vysokým výkonem (FP64:FP32 v poměru 1:2). To se však čekalo, jelikož na GPU Volta mají běžet některé nové superpočítače. Specifikace Tesly V100 ale není maximální konfigurací čipu. Všechna GV100 mají vzhledem k velikosti část bloků deaktivovanou, takže fyzicky na čipech má být údajně shaderů dokonce 5376.

Tensor Cores pro čtyřnásobný výkon

Nejzajímavější je zřejmě přidání 640 takzvaných „Tensor Cores“, tedy Tensor jader. To jsou jednotky navíc mimo hlavní výpočetní ALU, které jsou úzce specializované na operace pro neuronové sítě a strojové učení. Měly by provádět operace typu FMA (součin dvou hodnot FP16 a pak součet s hodnotou FP16 nebo FP32), a to současně 16× najednou. Při plném zapojení všech těchto jednotek má údajně výkon čipu GV100 být až 120 TFLOPS.

Tensor Cores v čipu GV100 (Zdroj: VideoCardz)

Skutečná využitelnost ale bude pochopitelně záviset na tom, jak dobře se běžící úloze bude dařit tyto specializované jednotky navíc vytížit a asi se prosadí jen ve výpočetním použití, v herní grafice pravděpodobně ne. Mimo jiné proto, že je pravděpodobně Nvidia nebude integrovat i do nižších GPU určených pro herní karty (nicméně to je jen odhad, s jistotou to říci nelze). Tensor Cores však asi budou v Tegře Xavier, což vysvětluje podezřele vysoký teoretický výkon, který u ní Nvidia loni uváděla.

Maticová operace, kerou umí Tensor Cores provádět

SM má FPU i celočíslené ALU

Základní jednotka SM je v architektuře Volta přepracována a údajně má být až o 50 % efektivnější co poměru výkonu a spotřeby. Složení SM je takovéto: 64 stream procesorů („shaderů“) pro výpočet s běžnou přesností FP32 (a patrně také FP16 s dvakrát větší propustností), 32 shaderů podporujících FP64, 8 oněch Tensor jader a k tomu ještě 64 stream procesorů pro celočíselné výpočty (až s přesností INT32). Volta by totiž měla umět paralelně posílat operace těmto jádrům a FP shaderům, což by mělo zefektivnit výpočty míchající typy operací a zlepšit výkon. V každém SM jsou také 4 texturovací jednotky (celkem je jich tedy 320), takže GV100 se stále dá použít i pro konvenční grafické operace.

Blok SM architektury Nvidia Volta v čipu GV100

GPU bude jako rozhraní používat PCI Express 3.0, nebo rozhraní NVLink 2.0. Jendo GPU podporuje šest linek NVLink o propustnosti 25 GB/s, takže celkově až 300 GB/s. V kombinaci s procesory IBM Power9 by na tomto rozhraní měla být podporována koherence pamětí GPU a CPU.

Spotřeba tohoto obřího čipu bude logicky vysoká, údajně se ale stále vejdet do 300 W, což byla i hodnota pro Teslu P100. Nicméně toto je údaj pro ono modulové provedení. Kromě toho má prý být vyráběna i méně žravá varianta v konvenční podobě karty do slotu PCI Express, která má mít TDP jen 150 W. Její takty a výkon ale logicky budou muset být nižší. Podle Nvidie má tato verze sloužit spíše pro aplikaci neuronových sítí, nikoliv pro jejich trénování, pro což je určen hlavní 300W model.

Schéma celého čipu GV100

Odhalení zatím jen na papíře

Ačkoliv Volta GV100 byla oznámena takto brzy, jde jen o papírové odhalení. Reálně dostupná má být až v třetím kvartále roku, a to zřejmě jen hodně omezeně. Nvidia totiž hodlá udělat to samé, co s Teslou P100 a ze začátku bude Teslu V100 prodávat jen ve svých vlastních značkových serverech DGX-1 (na čemž celkově shrábne vyšší marži). Je také možné, že v této fázi budou dostupná množství omezená. Širší dostupnost má nastat až v čtvrtém kvartále, kdy by Tesly V100 měli už mít k dispozici i ostatní výrobci serverů a distributoři. Reálně se tedy Tesla V100 bude na trhu objevovat až se zpožděním několika měsíců oproti dnešnímu odhalení. Nicméně vzorky již funkční jsou, Nvidia na nich údajně na GTC pouštěla dema.

Volta pro hráče?

Ačkoliv highendový výpočetní hardware je také zajímavý, nás přeci jen zajímá, jak by Volta mohla promluvit do herních grafických karet GeForce. Přímo u GV100 na to asi moc vysoká šance není – asi ještě nižší, než jaká byla u čipu GP100. Je to jednak velkou specializací tohoto GPU na výpočetní nasazení, pro kterou má navíc mnoho tranzistorů, které GeForce nevyužije. Zejména je tu ale problém s velikostí čipu vyráběného na velmi novém procesu. Tato GPU budou mít vysoké výrobní náklady a trh s kartami GeForce pro Nvidii asi proti kartám Tesla dostatečně lukrativní (pokud tedy za grafiku nechceme platit sumy převyšující sto tisíc korun). I se zajištěním potřebného vysokého objemu výroby by mohl být problém.

Nicméně, časem by se snad měl objevit derivát Volty, který bude pro herní grafiku už patřičně očesán, podobně jako má Nvidia k výpočetnímu Pascalu GP100 také herní GP102. A takový hypotetický čip GV102 už by pak pro nás měl i přímý význam. Dost možná by mohlo jít o údajnou katu s GDDR6 a 768GB/s propustností, kterou „avizoval“ Hynix.