Velký Kepler oficiálně uveden. Vedle Tesly K20 přichází i rychlejší K20X

13. 11. 2012

Když před krátkým časem prosákly na veřejnost parametry výpočetní karty Tesla K20, ozývalo se z některých stran určité zklamání nad výkonem. Jádro GK110 v ní mělo mít aktivních jen třináct SMX z patnácti a leckdo od velkého Keplera možná čekal více. Včera byly Tesly s tímto čipem oficiálně uvedeny a výkonnostní překvapení se koná opět. Ovšem opačným směrem. Nvidia překvapila a vyrukovala ještě s druhou, výkonnější variantou karty. Ta se bude označovat Tesla K20X a dle dostupných informací je právě tato „tajná“ varianta tím GPU, které tepe v superpočítači Titan.

Jak uvidíte, byly uniklé parametry (psali jsme o nich zde) modelu K20 velice přesné. Slabší model má skutečně aktivních 2496 stream procesorů, což s frekvencí 706 Mhz dává teoretický výkon 3,52 TFLOPS (respektive 1,17 TFLOPs při dvojité přesnosti). Propustnost pamětí GDDR5 je 208 GB/s, byť mají frekvenci 5,2 GHz. Ukazuje se totiž, že Nvidia u tohoto modelu osekala paměťovou sběrnici na 320 bitů, čímž se také vysvětluje nezvyklá kapacita paměti – 5 GB. Toto číslo tedy v uniklých informacích neudávalo užitečnou velikost po zapnutí ECC, jak jsem se domníval. Karta má prostě paměti méně (a s ECC jí ještě osmina ubude).

Tesla K20

Nvidia alespoň zatím neuvede kartu s plně aktivovaným GK110. Králem nabídky je tak Tesla K20X s 14 aktivovanými SMX, což dává 2688 stream procesorů. Ty budou také taktovány výše, na 732 Mhz. Díky tomu má karta teoretický výkon 3,95 TFLOPs v jednoduché a 1,31 TFLOPs v dvojité přesnosti. Spolu s rozšířením paměťové sběrnice na plných 384 bitů a kapacity paměti na 6 GB (frekvence je stejná, propustnost tedy 250 GB/s) si rychlejší parametry vyžádají navíc pouze 10 W – TDP stouplo z 225 W (K20) na 235 W. Nvidia zřejmě do rychlejšího modelu instaluje výběrové čipy GK110 s nižší spotřebou.

GK110, snímek čipu

Pro vyšší výpočetní výkon disponuje Kepler několika zlepšováky oproti svým předchůdcům (založeným ještě na architektuře Fermi). Lepší využití dostupných prostředků bude zajištěno nahrazením jediné pracovní fronty hned dvaatřiceti. Nvidia tento nápad prodává pod značkou Hyper-Q, a jde vlastně o trik podobný technologii HT v procesorech Intel. Pokud je totiž jedna fronta zablokována čekáním na data či nedokáže vytížit všechny jednotky, volná kapacita může být přidělena dalším frontám. Díky tomu lze z karty celkově vydupat větší výkon.

Tesla K20, prezentační slajd

Nově umí také GPU samo startovat úlohy či vytvářet vlákna. Dříve šlo totiž o privilegium procesoru. Nyní lze již nové úlohy spouštět přímo prostřednictvím existující úlohy již běžící na GPU. To tyto operace značně zrychlí a zjednoduší, neboť komunikace s CPU je pomalá a vede k propadům výkonu; radost budou mít jistě i programátoři, neboť se jim zase o něco uvolní ruce. GK110 také údajně efektivněji využívá propustnost paměti, pokud je ECC aktivováno.

U příležitosti uvádění Quadra K5000 se Nvidia uřekla, že Tesla K20 zájemce přijde na 3199 USD. To se paradoxně mohlo zdát jako málo, neboť AMD si za FirePro W9000 řekne baťovské čtyři tisíce. Vše ale dává větší smysl, když nyní víme o existenci karty K20X – ta zřejmě bude o poznání dražší a „deficit“ tak dožene. Kolik přesně bude stát, však zatím nevíme. Nvidia se veřejně moc nechlubí, dost možná raději zkouší vše handlovat případ od případu.

Karty jinak budou vybavené pasivním chlazením, určeným pro serverové skříně s vysokým průtokem vzduchu. Je však možné, že se časem objeví i konvenčně chlazený model k provozu v pracovních stanicích – v tandemu se zmíněným Quadrem pomocí technologie Maximus.

Zdroje: Nvidia, AnandTech