Nvidia posílá GPU Turing do serverů. Kartě Tesla T4 stačí 75 W na výkon 65 TFLOPS

13. 9. 2018

Sdílet

 Autor: Redakce

Herní grafiky GeForce RTX s čipy Turing stále ještě nebyly Nvidií definitivně vypuštěné do prodeje po svém odhalení minulý měsíc – jejich recenze by měly vyjít 19. září. Ale firma už oznámila další model, který na těchto GPU bude postaven. Jde o kartu Tesla T4, která už má také tuto zbrusu novou architekturu. Jde vůbec o první model Tesla pro servery, který Nvidia s novými GPU vydává.  

Turing v 75W provedení

Tesla T4 není úplně karta, kterou byste čekali jako prvního zástupce nové generace Turing na výpočetním trhu. Nvidia možná zatím nechce nahrazovat své modely Tesla V100 s čipem Volta, protože Tesla T4 míří na trh, který Volta nepokrývá. Jde o relativně malou kartu pro slot PCI Express 3.0 ×16 (podle vizualizace, kterou můžete vidět v záhlaví, je asi v nízkoprofilovém a jednoslotovém provedení) s TDP 75 W. Mělo by tedy být poměrně snadné je instalovat i do serverů, které nepočítají s nejvýkonnějšími velkými grafikami.

Specifikace karty Tesla T4 Specifikace karty Tesla T4

Co se podařilo Nvidii do 75W TDP dostat? Karta má dle specifikací 2560 stream procesorů, takže by mělo asi jít o ořezaný čip TU104, jenž naleznete také v GeForce RTX 2080. Zde ale asi poběží na o dost nižších frekvencích. Uvedena je propustnost pamětí 320 GB/s, což by znamenalo paměti GDDR6 na frekvenci okolo 10 GHz efektivně, jelikož je podle všeho zachována 256bitová sběrnice. Jejich kapacita je totiž 16 GB.

Teoretický výpočetní výkon grafiky má být 8,1 TFLOPS při standardním poměřování výkonu shaderů v operacích FP32, ovšem asi půjde o výkon na maximálním taktu boostu. Vzhledem k sešněrování 545 mm² velkého GPU TU104 do 75 W asi karta v dlouhodobé zátěži může běžet na o dost nižších frekvencích.

bitcoin_skoleni

Tesla T4 ale má být používána zejména po operace strojového učení a Nvidia staví do popředí hlavně výkon specializovaných tensor cores. Těch je v GPU aktivních 320. Tensor cores dokáží počítat maticové operace pro neuronové sítě a při jejich plném využití dokáží tyto akcelerátory dosáhnout souhrnného teoretického výkonu až 65 TFLOPS. To je při přesnosti FP16, jež je pro tyto jednotky maximem. Tensor cores ale dokáží pro vyšší výkon použít i menší datové typy – 8bitové celočíselné hodnoty INT8, s kerými je možné realizovat výkon až 130 TOPS, a dokonce i čtyřbitové INT4 s výkonem až 260 TOPS. Použitelnost těchto operací je přirozeně o něco komplikovanější kvůli jejich snížené přesnosti (zejména v případě INT4). Nicméně aktuální vývoj v oblasti strojového učení s těmito operacemi počítá, takže by stále tyto výpočty měly být prakticky využitelné, nejde rozhodně o nějaký marketingový trik.

PCB karty GeForce RTX 2080 s čipem TU104 (Zdroj: Chiphell) Čip TU104 na PCB karty GeForce RTX 2080 (Zdroj: Chiphell)

Karta se asi neobjeví v běžném prodeji, jak už to u těchto produktů bývá, ale distribuovat ji budou výrobci serverů ve svých produktech. Podle tiskové zprávy by měla být v nabídce firem Supermicro, Cisco, Fujitsu, HPE, Dell nebo IBM. Microsoft, Google nebo Oracle by ji zase měli poskytovat ve svém cloudu. Cena ovšem zatím nebylo oznámena a Nvidia také vynechala informace o tom, kdy by se Tesla T4 měla dát reálně pořídit. Tiskovka ale zmínila ovšem možnost zaregistrovat se pro předběžný přístup v rámci Google Cloudu. To naznačuje, že obecná dostupnost tohoto hardwaru pro všechny může být vzdálená spíš v řádu měsíců než týdnů.