Nvidia uvádí PCI Express karty Tesla s velkým Pascalem GP100 a pamětí HBM2

20. 6. 2016

Nvidia má už na herním trhu vydáno 16nm GPU GP104 v kartách GeForce GTX 1080 a GTX 1070. Jenže to je až druhý čip generace Pascal. Nvidia předtím stihla (alespoň papírově) představit také čip GP100, který je zajímavý coby první – a navíc velmi výkonné – GPU, které používá integrovanou paměť HBM2. Jeho první exempláře byly ukazovány jen v proprietárním modulu pro výpočetní servery, ale firma nyní přišla i s provedením klasického akcelerátoru do slotu PCI Express. Ten je zatím nejbližší ukázkou toho, jak by mohla vypadat herní grafika, založená na takovém GPU.

Karta Tesla P100 je přes integrování
pamětí dlouhá jako klasická highendová grafika. Určená je pro
rozhraní PCI Express 3.0 ×16 (Nvidia ji označuje jako „P100 for
PCIe-Based Servers“) a nevyužívá i konektivitu NVLink,
kterou nabízejí kompaktnější výpočetní moduly představené
dříve. Je docela škoda, že nemáme snímky PCB, protože by bylo
zajímavé vidět, co na něm zabírá tolik místa. Chlazení
s tloušťkou dvou slotů je jako obvykle závislé na průtoku
vzduchu rackovou skříní, takže to, že má karta plnou délku,
dovoluje zřejmě také osadit větší pasiv. TDP není v dostupných
specifikacích uvedeno, tyto karty ale u Nvidie obvykle mají
TDP okolo 250 W. U „NVLinkových“ moduly je TDP 300 W,
takže PCIe verze musí mít snížené takty.

Nvidia Tesla P100 s čipem GP100 a HBM2, provedení PCI Express

PCIe verze Tesly P100 má podle Nvidie
výkon v dvojité přesnosti 4,7 TFLOPS, v jednoduché 9,3
TFLOPS a v poloviční (FP16) 18,7 TFLOPS. Hodnoty jsou
nižší než pro 300W modulovou verzi (tam je to údajně 5,3, 10,6
a 21,2 TFLOPS), což je patrně způsobeno snížením taktem,
zatímco počet stream procesorů by měl stále být 3584 (z 3840
fyzicky přítomných na čipu). Frekvence Boostu musela být z 1480
MHz (u modulové Tesly P100) snížena na nějakých 1300 MHz;
základní takt neznáme, jelikož hodnoty TFLOPS odvozuje Nvidia jen
z turba.

Verze pro PCI Express má nižší TDP a výkon a také ořezaný 12GB model

Rychlost paměti HBM2 zůstává na
efektivní frekvenci 1,40 GHz, zajímavé ale je, že firma bude
nabízet dvě varianty – s 16 GB paměti a s 12
GB paměti (obojí včetně ECC). V druhém případě jsou
v pouzdru aktivní jen tři čipy HBM2 že čtyř, takže
zatímco 16GB verze má plnou propustnost 720 GB/s, 12GB karty
nabízejí jen 540 GB/s. Tyto karty mají dost možná stále čtyři
čipy, ale jeden z nich nefunkční, takže díky 12GB verzi by
se využily také ta zkompletovaná GPU, u nichž byla objevena
vada po finálním sestavení pouzdra.

Dostupnost v Q4 2016

Tyto karty mají být dostupné někdy
během čtvrtého kvartálu letošního roku a pravděpodobně
půjde o první Tesly P100, které budou k mání v širší
distribuci. U Tesly P100 v modulovém formátu s NVLinkem
se totiž očekává dostupnost v různých systémech až někdy
v Q1 2017, předtím by měly být dostupné jen servery
DGX-1 přímo od Nvidie. Cena jako obvykle nebyla zveřejněna.

Prvním superpočítačem, který Tesly
P100 nasadí, se údajně má stát stroj Piz Daint instituce Swiss
National Supercomputing Center. V jeho případě půjde
o upgrade, kdy provozovatel vymění 4500 karet Tesla
K20X z roku 2012 za Tesly P100 právě v provedení PCI
Express. Tato možnost je jednou z výhod tradičního
provedení, byť s ním uživatel přijde o možnost využít
komunikaci přes rozhraní NVLink.