Pascal GP100 je 610mm² monstrum s 3840 shadery, Nvidia sdělila úplné parametry

6. 4. 2016

Na rozbíhající se akci GTC 2016, pořádané Nvidií, se očekávala nějaké forma poodhalení grafické architektury Pascal. A k němu také došlo, ovšem rozsah podrobností, které byly zveřejněny, asi nikdo nečekal. Nvidia se totiž místo nějakého namlsávání pochlubila rovnou nejvýkonnějším čipem 16nm řady, „velkým Pascalem“ GP100. A hned k němu prozradila vpodstatě vše: počet stream procesorů, vlastnosti paměťového subsystému, ba dokonce i takty. Až to skoro připomíná apríl, jelikož takto oficiálně jasno dopředu před uvedením asi ještě nikdy nebylo.

Nvidia čip GP100 představila jako
komponentu výpočetní karty Tesla P100, která bude určená pro
superpočítače a bude nejvýznamnějším upgradem v tomto
segmentu od uvedení Kepleru (GK110, později GK210).
Jednak jde konečně o 16nm čip – proces TSMC už je potvrzen
– hlavně ale vůbec ne o kartu, nýbrž o PCB modul
v novém plochém formátu s konektory na spodku, určený
speciálně pro superpočítače. Podobu můžete vidět na obrázku.
Na PCB se nachází napájecí komponenty, paměti i GPU leží
na interposeru v centrálním pouzdru BGA. TDP celého modulu je
300 W, takže chlazení bude muset být pořádné.

Nvidia Tesla P100 s 16nm čipem GP100 architektury Pascal a HBM2

Kompletní specifikace čipu GP100 jsou venku

Tesla P100 bude mít s tímto GPU
výkon 10,6 TFLOPS v jednoduché přesnosti (FP32) a 5,3 TFLOPS
v dvojité (FP64, poměr výkonu je 1:2). Pro srovnání: Titan X dosahuje jen na 6,14 a GTX 980 Ti 5,63 TFLOPS v FP32! Navíc GP100 umí také
výpočty v přesnosti poloviční (FP16), které mohou mít
dvojitý výkon (21,2 TFLOPS). Ovšem toto ještě není výkon
plného neořezaného GPU. Čip GP100 bude mít totiž v této
Tesle aktivních jen 56 bloků SM z fyzických 60. Jeden blok má
64 stream procesorů (poloviční počet proti Maxwellu), což
znamená, že celé GPU má 3840 shaderů; verze použitá v Tesle
P100 pak „jen“ 3584.

Blok SM je rozdělen do dvou sekcí po
32 shaderech (FP64 jednotek je polovina) – ty mají společný buffer pro instrukce, warp
scheduler a dispatch (dvě jednotky). Texturovacích jednotek je
celkem 224 (plný čip by jich měl mít 240), ty rasterizační
zatím uvedené nejsou. GPU nese 4 MB L2 cache a každý
blok SM má soubor registrů o kapacitě 256 KB. Počet TPC
(Texture Processing Cluster) je zřejmě poloviční proti počtu SM,
tedy celkově 30, u ořízlé verze 28. GP100 (či Pascal) bude
mít také proti předchozím architekturám určitá zlepšení
a nové schopnosti – verze „Compute Capability“ byla
z 5.3 povýšena na 6.0.

Schéma jednoho bloku SM s 2×32 stream procesory

Nvidia kupodivu vyzradila i takty
(které ovšem vyplývají již ze zmíněných teoretických
výkonů). Nový výrobní proces s 3D tranzistory FinFET
umožnil kromě zvýšení počtu shaderů také nasadit podstatně
vyšší takt (pravda při vyšším TDP). Základní je 1328 MHz,
turbo je 1480 MHz. To je hodně, jelikož se zde bavíme o skutečně
velkém GPU a navíc ve verzi pro náročnější sektor HPC,
kde nelze běžet tak nadoraz, jako u herních grafik.

Schéma celého čipu GP100

HBM2 s ECC na 1,40 GHz

Paměti jsou použity HBM2 ve čtyřech
kusech, sběrnice má tedy šířku 4096 bitů. Nvidia osadí 4GB
čipy, celkem bude kapacita 16 GB. Efektivní takt je podle
zveřejněných specifikací 1,40 GHz, jelikož propustnost je údajně
720 GB/s. Zde Nvidia poněkud zařadila zpátečku, protože když
poprvé oznámila GPU s integrovanou 3D pamětí, mělo údajně
mít propustnost 1 TB/s. Paměti HBM2 podle Nvidie nativně
podporují ECC jak pro obsah, tak při přenosech po sběrnici.

Naopak v souladu se sliby má
GP100 kromě PCI Express nové speciální komunikační rozhraní
NVLink – obdobu HyperTrasnportu či QPi. GPU má čtyři tyto
linky, každou s rychlostí 40 GB/s obousměrně a může
jimi komunikovat buď s dalšími GPU, nebo v budoucnu
s procesory Power, které mají tuto technologii také
integrovat. Pro výkonné servery by mělo jít o velmi významné
zlepšení, i když tato logika zdá se není plně koherentní
jako v případě systémů s vícero CPU.

Příklad zapojení Tesly P100 v dvouprocesorovém serveru pomocí propojek NVLink

Navzdory FinFETům historicky největší
GPU vůbec

Specifikace vypadají pro výkon velice
dobře, nehledě na zvýšené TDP, které v tomto segmentu není
již tak významným problémem. Zda se v dohledné době objeví
také plně aktivní verze, je trochu otázka. Čip je totiž enormně
velký, ačkoliv používá zcela nový a také náročný
proces. S 15,3 miliardami tranzistorů měří 610 mm²,
což je na samé hranici toho, co TSMC vůbec dokáže vyrábět
jakýmkoli procesem – je dokonce větší než GM200 na zralém
28nm procesu. V případě 16nm ale nepochybně úřaduje mnohem
vyšší výskyt defektů a horší výtěžnost. Z toho
vyplývá, že tento čip musí být těžké vyrobit. Ono vypnutí
čtyř SM je možná holou nezbytností, aby z waferu vůbec
zůstaly nějaké použitelné čipy.

I vzhledem k tomuto si moc
nedovolím odhadovat, jak by mohla (co do počtu aktivních shaderů)
vypadat eventuálně vydaná herní karta GeForce s tímto
monstrčipem. Zřejmě tuhé výrobní náklady si Nvidia bude
kompenzovat vysokými maržemi i karet Tesla. Za jak dlouho to
ale bude na uvedení nějaké karty GeForce s cenou řádově
600–700 dolarů (respektive teď již asi spíše Titanu za 1000 či
více dolarů), to bude záviset na vývoji cen waferů, zrání
procesu a zlepšování výtěžnosti.

Kdy můžeme velkého Pascala čekat,
je vůbec otázka. Byť bylo toto první odhalení na informace velmi
pestré, jedno chybělo: jakékoliv informace o ceně a co
je podstatnější, datum vydání. V případě Tesly P100 je nicméně hlavní spíše to, kdy ji budou mít v nabídce výrobci serverů a superpočítačů. Velcí výrobci serverů mají tento termín položen údajně až na první čtvrtletí roku 2017. Ale GPU samotné má být nyní prý již ve výrobě a některé stroje by ho prý mohly mít již během léta. Kdy bude herní verze, je ale hodně těžké odhadnout. Teoreticky by možná mohla přijít ještě letos, pravděpodobný je ale asi také příchod až v roce 2017. Na druhou stranu, vyloučit nelze nic, u GM200 byla herní verze vydána dříve než karta Tesla.

Zdroje: Nvidia,
AnandTech

Vstoupit do diskuse

Sdílet

Kompletní specifikace čipu GP100 jsou venku

HBM2 s ECC na 1,40 GHz

Navzdory FinFETům historicky největší
GPU vůbec

Autor článku

Jan Olšan

Témata:

Nejnovější

Anketa

Nakupujete u čínských prodejců?

Témata

Návody a tipy

Jak na Netflixu najít perfektní film během pár sekund? Tajnou zkratkou jsou skryté kódy ve vyhledávání

Usínáte pravidelně u YouTube? Nová funkce vám ušetří peníze za elektřinu

Jak vložit elektronický podpis do PDF dokumentu? Jde to snadno a zdarma

Jak zjistit heslo Wi-Fi sítě, ke které jste připojeni? Na počítači s Windows nebo na smartphonu snadno

Šest nejlepších vychytávek od Mapy.cz. Znáte je všechny?

JPEG 2000 smývá rozdíl mezi ztrátovou a bezeztrátovou kompresí

Regulace podle NIS2: Klamali jste, stěžuje si operátorské sdružení APMS na NÚKIB

Online nakupování musí být pohodlné. Známe trendy v e-commerce pro rok 2025

Softwarová sklizeň (18. 12. 2024): testujte pohodlně své webové rozhraní

Válka o čipy, ekonomický pád Německa, Nvidia nebo Kotletova revoluce v AI. Tipy na knihy z…

Minimální mzda se v roce 2025 rekordně zvýší, zaručená mzda ale končí

Od reálného režimu k režimu chráněnému na 80286 a 80386

Ondřej Klimeš (Newton Technologie): Beey dokáže rozpoznat, který poslanec mluví

Trpaslíci, kam se podíváš. Když vánoční kampaň chytře propojí různé kanály

Pascal GP100 je 610mm² monstrum s 3840 shadery, Nvidia sdělila úplné parametry

Sdílet

Kompletní specifikace čipu GP100 jsou venku

HBM2 s ECC na 1,40 GHz

Navzdory FinFETům historicky největší GPU vůbec

Autor článku

Anketa

Nakupujete u čínských prodejců?

Kvíz týdne

Návody a tipy

Z našich webů

JPEG 2000 smývá rozdíl mezi ztrátovou a bezeztrátovou kompresí

Regulace podle NIS2: Klamali jste, stěžuje si operátorské sdružení APMS na NÚKIB

Online nakupování musí být pohodlné. Známe trendy v e-commerce pro rok 2025

Softwarová sklizeň (18. 12. 2024): testujte pohodlně své webové rozhraní

Válka o čipy, ekonomický pád Německa, Nvidia nebo Kotletova revoluce v AI. Tipy na knihy z…

Minimální mzda se v roce 2025 rekordně zvýší, zaručená mzda ale končí

Od reálného režimu k režimu chráněnému na 80286 a 80386

Ondřej Klimeš (Newton Technologie): Beey dokáže rozpoznat, který poslanec mluví

Trpaslíci, kam se podíváš. Když vánoční kampaň chytře propojí různé kanály

Dále u nás najdete

Neplaťte si IT kurzy sami, využijte dotace od EU

Počítače s procesory AMD a Intel se dočkají některých Copilot+ funkcí

Firma se vyhnula pokutě za nepodání kontrolního hlášení

Technologické trendy, které se v roce 2025 nestanou

I diabetici si mohou dát cukroví. Místo piva však raději střik

Kvíz: Ukažte, kolik druhů vánočního cukroví poznáte

Lékaři chtějí po lidech pokutu, když objednaný pacient nedorazí

DPD se připojuje k iniciativě „Večer objednáno, zítra dodáno“

Ostrava a Opava zvýší daň z nemovitostí. Co ostatní města?

Deset let od první transplantace střeva: V IKEM se připravují na děti

Češi mají aplikaci, která propojuje lidi podle společných koníčků

Hrozbou číslo jedna pro české počítače je spyware Formbook

Minimální mzda v roce 2025 vzroste, zaručená mzda končí

Zažít Synology na pražském Synology Experience Day

Vyšetření krvácení do stolice jako prevence rakoviny nestačí

Ona pracuje s jehlou a nití, on se štětci a barvami

Intel vydal slušnou grafickou kartu Arc B580

Co najdete v posledním letošním magazínu CIO 6/2024

Příjem z prodeje nemovitosti a uspokojení vlastní bytové potřeby

Udělejte si french toast ze zbylé vánočky

Navzdory FinFETům historicky největší
GPU vůbec