Pascal GP100 je 610mm² monstrum s 3840 shadery, Nvidia sdělila úplné parametry

6. 4. 2016

Sdílet

 Autor: Redakce

Na rozbíhající se akci GTC 2016, pořádané Nvidií, se očekávala nějaké forma poodhalení grafické architektury Pascal. A k němu také došlo, ovšem rozsah podrobností, které byly zveřejněny, asi nikdo nečekal. Nvidia se totiž místo nějakého namlsávání pochlubila rovnou nejvýkonnějším čipem 16nm řady, „velkým Pascalem“ GP100. A hned k němu prozradila vpodstatě vše: počet stream procesorů, vlastnosti paměťového subsystému, ba dokonce i takty. Až to skoro připomíná apríl, jelikož takto oficiálně jasno dopředu před uvedením asi ještě nikdy nebylo.

Nvidia čip GP100 představila jako
komponentu výpočetní karty Tesla P100, která bude určená pro
superpočítače a bude nejvýznamnějším upgradem v tomto
segmentu od uvedení Kepleru (GK110, později GK210).
Jednak jde konečně o 16nm čip – proces TSMC už je potvrzen
– hlavně ale vůbec ne o kartu, nýbrž o PCB modul
v novém plochém formátu s konektory na spodku, určený
speciálně pro superpočítače. Podobu můžete vidět na obrázku.
Na PCB se nachází napájecí komponenty, paměti i GPU leží
na interposeru v centrálním pouzdru BGA. TDP celého modulu je
300 W, takže chlazení bude muset být pořádné.

Nvidia Tesla P100 s 16nm čipem GP100 architektury Pascal

Nvidia Tesla P100 s 16nm čipem GP100 architektury Pascal
Nvidia Tesla P100 s 16nm čipem GP100 architektury Pascal a HBM2

 

 

Kompletní specifikace čipu GP100 jsou venku

Tesla P100 bude mít s tímto GPU
výkon 10,6 TFLOPS v jednoduché přesnosti (FP32) a 5,3 TFLOPS
v dvojité (FP64, poměr výkonu je 1:2). Pro srovnání: Titan X dosahuje jen na 6,14 a GTX 980 Ti 5,63 TFLOPS v FP32! Navíc GP100 umí také
výpočty v přesnosti poloviční (FP16), které mohou mít
dvojitý výkon (21,2 TFLOPS). Ovšem toto ještě není výkon
plného neořezaného GPU. Čip GP100 bude mít totiž v této
Tesle aktivních jen 56 bloků SM z fyzických 60. Jeden blok má
64 stream procesorů (poloviční počet proti Maxwellu), což
znamená, že celé GPU má 3840 shaderů; verze použitá v Tesle
P100 pak „jen“ 3584.

Blok SM je rozdělen do dvou sekcí po
32 shaderech (FP64 jednotek je polovina) – ty mají společný buffer pro instrukce, warp
scheduler a dispatch (dvě jednotky). Texturovacích jednotek je
celkem 224 (plný čip by jich měl mít 240), ty rasterizační
zatím uvedené nejsou. GPU nese 4 MB L2 cache a každý
blok SM má soubor registrů o kapacitě 256 KB. Počet TPC
(Texture Processing Cluster) je zřejmě poloviční proti počtu SM,
tedy celkově 30, u ořízlé verze 28. GP100 (či Pascal) bude
mít také proti předchozím architekturám určitá zlepšení
a nové schopnosti – verze „Compute Capability“ byla
z 5.3 povýšena na 6.0.

Schéma jednoho bloku SM s 2×32 stream procesory
Schéma jednoho bloku SM s 2×32 stream procesory

Nvidia kupodivu vyzradila i takty
(které ovšem vyplývají již ze zmíněných teoretických
výkonů). Nový výrobní proces s 3D tranzistory FinFET
umožnil kromě zvýšení počtu shaderů také nasadit podstatně
vyšší takt (pravda při vyšším TDP). Základní je 1328 MHz,
turbo je 1480 MHz. To je hodně, jelikož se zde bavíme o skutečně
velkém GPU a navíc ve verzi pro náročnější sektor HPC,
kde nelze běžet tak nadoraz, jako u herních grafik.

 

Schéma čipu GP100
Schéma celého čipu GP100

 

HBM2 s ECC na 1,40 GHz

Paměti jsou použity HBM2 ve čtyřech
kusech, sběrnice má tedy šířku 4096 bitů. Nvidia osadí 4GB
čipy, celkem bude kapacita 16 GB. Efektivní takt je podle
zveřejněných specifikací 1,40 GHz, jelikož propustnost je údajně
720 GB/s. Zde Nvidia poněkud zařadila zpátečku, protože když
poprvé oznámila GPU s integrovanou 3D pamětí, mělo údajně
mít propustnost 1 TB/s
. Paměti HBM2 podle Nvidie nativně
podporují ECC jak pro obsah, tak při přenosech po sběrnici.

Nvidia Tesla P100 s 16nm čipem GP100 architektury Pascal

Naopak v souladu se sliby má
GP100 kromě PCI Express nové speciální komunikační rozhraní
NVLink – obdobu HyperTrasnportu či QPi. GPU má čtyři tyto
linky, každou s rychlostí 40 GB/s obousměrně a může
jimi komunikovat buď s dalšími GPU, nebo v budoucnu
s procesory Power, které mají tuto technologii také
integrovat. Pro výkonné servery by mělo jít o velmi významné
zlepšení, i když tato logika zdá se není plně koherentní
jako v případě systémů s vícero CPU.

Příklad zapojení Tesly P100 v dvouprocesorovém serveru pomocí propojek NVLink
Příklad zapojení Tesly P100 v dvouprocesorovém serveru pomocí propojek NVLink

 

Navzdory FinFETům historicky největší
GPU vůbec

Specifikace vypadají pro výkon velice
dobře, nehledě na zvýšené TDP, které v tomto segmentu není
již tak významným problémem. Zda se v dohledné době objeví
také plně aktivní verze, je trochu otázka. Čip je totiž enormně
velký, ačkoliv používá zcela nový a také náročný
proces. S 15,3 miliardami tranzistorů měří 610 mm²,
což je na samé hranici toho, co TSMC vůbec dokáže vyrábět
jakýmkoli procesem – je dokonce větší než GM200 na zralém
28nm procesu. V případě 16nm ale nepochybně úřaduje mnohem
vyšší výskyt defektů a horší výtěžnost. Z toho
vyplývá, že tento čip musí být těžké vyrobit. Ono vypnutí
čtyř SM je možná holou nezbytností, aby z waferu vůbec
zůstaly nějaké použitelné čipy.

Nvidia Tesla P100 s 16nm čipem GP100 architektury Pascal

I vzhledem k tomuto si moc
nedovolím odhadovat, jak by mohla (co do počtu aktivních shaderů)
vypadat eventuálně vydaná herní karta GeForce s tímto
monstrčipem. Zřejmě tuhé výrobní náklady si Nvidia bude
kompenzovat vysokými maržemi i karet Tesla. Za jak dlouho to
ale bude na uvedení nějaké karty GeForce s cenou řádově
600–700 dolarů (respektive teď již asi spíše Titanu za 1000 či
více dolarů), to bude záviset na vývoji cen waferů, zrání
procesu a zlepšování výtěžnosti.

bitcoin_skoleni

Kdy můžeme velkého Pascala čekat,
je vůbec otázka. Byť bylo toto první odhalení na informace velmi
pestré, jedno chybělo: jakékoliv informace o ceně a co
je podstatnější, datum vydání. V případě Tesly P100 je nicméně hlavní spíše to, kdy ji budou mít v nabídce výrobci serverů a superpočítačů. Velcí výrobci serverů mají tento termín položen údajně až na první čtvrtletí roku 2017. Ale GPU samotné má být nyní prý již ve výrobě a některé stroje by ho prý mohly mít již během léta. Kdy bude herní verze, je ale hodně těžké odhadnout. Teoreticky by možná mohla přijít ještě letos, pravděpodobný je ale asi také příchod až v roce 2017. Na druhou stranu, vyloučit nelze nic, u GM200 byla herní verze vydána dříve než karta Tesla.

Zdroje: Nvidia,
AnandTech