Včera v šest večer nastal, jak Nvidia před časem avizovala, den odhalení herních grafik Nvidia Ampere neboli nové generace GeForce RTX 3000. Na videu vysílaném z kuchyně CEO firmy Jen-Hsun Huanga (neboť v USA pořád koronavirus zuří o dost hůř, než u nás) Nvidia představila karty a výkonnostní zlepšení, které od nich očekává: údajně má jít o vůbec nejvýznamnější generaci grafik GeForce v historii vůbec.
Dále už máme plné specifikace a také architektonické detaily a ty jsou již o hodně zajímavé. Ampere má totiž velmi překvapivé novinku ve výpočetních jednotkách, která zvedla počty tzv. „Cuda jader“ (lépe řečeno shaderů) na dvojnásobek. A i nějaké další přínosy, o kterých jsme doteď netušili.
Ampere: očekávaná architektura s dvojím velkým překvapením
Asi největším překvapením večera je, že karty Ampere mají v oficiálně představených specifikacích dvojnásobný počet shaderů, než říkaly prezentace, které na své letáky napsali výrobci karet, kteří evidentně do poslední chvíle byli ponecháni v neznalosti. Toto je zdá se ta největší architektonická změna v Ampere.
Dvojnásobný počet FP32 shaderů
Vypadá to, že Nvidia zvýšila počet FP32 ALU na jeden výpočetní blok SM na dvojnásobek. Protože Nvidia počítá jednu FP32 ALU neboli „lane“ v SIMD vektoru grafiky jako jedno Cuda jádro, je výsledkem, že GPU teoreticky dokáže udělat se stejným počtem bloků SM dvojnásobný počet FP32 operací.
Nvidia tímto tedy místo 64 shaderů (FP32 ALU/lanes) na jeden SM nyní do jednoho bloku nasadila 128. Jak je to přesně implementováno, není jasné. Ale už u Volty a Turingu Nvidia udělala to, že na každou jednotku FP32 přidala ještě jednu jednotka schopnou paralelně počítat operace INT32.
Je tedy možné, že teď nyní Nvidia přidala paralelně i třetí jednotku, tentokrát ale replikující FP32 (a chvíli si možná sama nebyla jistá, zda to bude prezentovat jako shader navíc, nebo ne? Pokud tedy nešlo o záměrné matení nepřítele/spojenců). Zde čekáme na architektonické detaily. Ovšem každopádně toto vytváří potenciál k navýšení teoretického shaderového (výpočetního) výkonu na dvojnásobek.
Třetí generace Tensor jader (pro AI, DLSS)
Architektura Ampere pro karty GeForce také přejímá novou generaci akcelerátorů pro maticové operace neuronových sítí, tzv. Tensor cores, z výpočetní verze architektury, kterou Nvidia prezentovala na jaře v akcelerátoru A100. Mají celkově větší výpočetní kapacitu s dvojnásobným výkonem v FP16. A také podporují funkci Structured Sparsity, která eliminuje z výpočtů část (nevýznamných) dat.
Druhá generace RT jader pro ray tracing
Také RT jádra by měla mít vyšší výkon, ale víc specifik k tomu zatím nemáme. Mají být schopná až 2× počtu operací hledání průsečíků s objekty. Jejich princip fungování asi ale zůstal stejný či podobný jako u Turingu (více o něm najdete zde). Akcelerují tedy část ray tracingových výpočtů, a sice procházení hierarchické struktury bounding volume boxů a poté samotných trojúhelníků v objektu. Začátek takovéhoto sledu operací iniciují shadery jako dříve a také finální vypočítání bodu je dílem shaderů.
Míra akcelerace raytracingového efektu se tedy zřejmě nezměnila (to je asi dáno také tím, jak Microsoft v standardu DXR tento postup ray tracingu koncipuje), jen se zvýšil výpočetní výkon, který RT jádra pro akcelerovanou část postupu mají k dispozici. Nvidia ukazovala slajd ukazující nárůsty výkonu v ray tracingu proti Turingu, kde zrychlení byla od nějakých 1,6× až po 2,1×. Nejlepší bude to ovšem posuzovat až z reálných testů.
RTX IO: Akcelerovaná dekomprese textur
Kromě ono překvapení s jednotkami FP32 (zvěst o tomto mimochodem přinesl už před časem leaker Kopite2Kimi, ale uváděl, že není moc zaručená) ale přineslo odhalení Ampere ještě jednu novinku, která je hodně pozoruhodná a kterou zdá se neuhádl nikdo. V představení architektury Xboxu Series X jsme psali, že Microsoft integroval akcelerátory určené k dekompresi textur při načítání ze SSD. To dovoluje je rychleji dostat z úložiště do grafické paměti a tedy je možné jich část držet mimo a šetřit tím její kapacitu.
Nvidia teď odhalila, že podobnou funkci má už i GPU Ampere. Jmenuje se RTX IO a údajně až 100× vylepšuje propustnost načítání textur z HDD/SSD při 20× snížení zátěže CPU. Na slajdu, ke Nvidia funkci prezentuje, slibuje, že s SSD pro PCI Express 4.0 ×4, které má rychlost čtení 7000 MB/s (taková teprve přicházejí, viz Samsung SSD 980 Pro nebo Sabrent Rocket 4 Plus a jiná SSD s Phisonem E18), má použitá komprese dosáhnout efektivní propustnost až 14 GB/s.
Nvidia tvrdí, že dekomprese tolika dat by potřebovala až 24 jader CPU (těžko posoudit, tato čísla raději berte s rezervou…), ale dekomprese v grafice pomocí RTX IO má snížit spotřebu na půl jádra CPU. Důležitý je také ten rozdíl, že data zřejmě pomocí DMA plynou rovnou z SSD do GPU, ne oklikou přes CPU a RAM. Je možné, že čísla Nvidie jsou pro nějaké extrémní situace, nezdá se moc reálné, že by hry najednou konzumovaly tolik dat najednou, nebo aspoň ne běžně. Nicméně tato technologie by do budoucna otevírala potenciál pro mnohem agresivnější streamování textur z úložiště, než bylo možné bez podobného offloadu.
RTX IO by mělo být kompatibilní s technologií Microsoftu (DirectStorage), takže uvidíme, zda se z tohoto stane standard DirectX, který by podporovala i GPU jiných značek. Pokud má něco takového Microsoft v Xboxu, je možné, že to k tomuto spěje. Ale zatím těžko říct, zda se jeho způsob akcelerace přímo dostal i do Radeonů architektury RDNA 2, nebo to bude až v nějaké další generaci.
HDMI 2.1, VirtualLink zrušen
Karty Ampere budou vybavené třemi výstupy DisplayPort 1.4a a jedním HDMI 2.1 (vítaná novinka), naopak zdá se postrádají USB-C výstup VirtualLink, který byl jednou z novinek Turingu (zdá se že neúspěšnou).
Maximální podporované rozlišení je 8K. Nvidia dokonce ukazovala propagační video ukazující hraní v 8K na RTX 3090 s frenetickými reakcemi sledujících youtuberů, ale to možná opět bylo pomocí DLSS. Opět asi platí, že je lepší počkat na nezávislé recenze.
Proces: 7 nm tak přece 8 nm
Kde vás naopak Nvidia trošku zklame, je výrobní proces. Nakonec se totiž leakeři prve nepletli, když mluvili o 8nm procesu Samsungu. Ačkoliv výrobci karet měli na uniklých letácích už vysázeno, že proces je „7nm“, Jen-Hsun Huang při uvedení mluvil o procesu „8N“. Je to sice pro Nvidii speciálně vyladěný, ale stále 8nm proces Samsungu. Pokud jde o vyladěný derivát procesu 8LPP, pak jde nakonec o evoluci 10nm technologie. 7nm proces Samsungu s EUV by dost možná měl lepší spotřebu a čip by byl asi menší, ale jak moc velké zlepšení by to bylo, se nikdy nedozvíme. Proti Turingu (proces 12FFN byl derivát 16nm procesu) jde pořád o posun o celou generaci.
V největším čipu Ampere (snad označeném GA102) je podle Nvidie 28 miliard tranzistorů, ve srovnání s 18,6 miliardami v 12nm TU102 (RTX 2080 Ti). Pokud jste tedy viděli „úniky“ mluvící o dvojnásobku tranzistorů, byly to vymyšlené spekulace, reálně je navýšení zdá se o 50 % a něco. Nvidia ještě nesdělila oficiálně plochu, ale čip GA102 by podle starších úniků mohl mít 627 mm².
Energetická efektivita?
Velkým tématem úniků o Ampere byla vysoká spotřeba a to, zda to znamená špatnou energetickou efektivitu. Je ale jasné, že výkon zároveň stoupne, což by mělo spotřebu víc než kompenzovat. Jen-Hsun Huang v prezentaci řekl, že Ampere je až 2× efektivnější, přičemž to je asi lehce zaokrouhleno, protože ve slajdu je napsáno zlepšení o 1,9×. Ovšem toto může být trošku selektivní údaj. Vypadá to totiž, že nejsou srovnány rovnocenné modely (třeba RTX 2080 Ti proti RX 3090). Místo toho Nvidia vzala maximální výkon Turingu u 250W RTX 2080 Ti a uvádí, že na stejné FPS bude Ampere stačit něco přes 120 W.
Toto však dost možná není údaj pro reálnou grafiku (viz čtvrtou stranu článku, RTX 3070 výkon RTX 2080 Ti potřebuj e 220W), ale pro hypotetické podtakování největšího čipu GA102, což zveličuje výhodu Ampere. Můžete vidět na grafu, že se srovnává hodnota pro Turing na horním (a tedy horším) konci křivky efektivity s výsledkem pro Ampere na spodním (a tedy výrazně výhodnějším) konci křivky efektivity.
Ono 1,9× tedy asi nadhodnocuje zlepšení, které Ampere a 8nm proces přinese, reálně asi bude lepší srovnat RTX 3090 a RTX 2080 Ti, což by měly ukázat rcenze.
Ovšem pozor, toto přibarvenéé srovnání byste asi neměli Nvidii moc vyčítat. Když uvádělo srovnání efektivity GPU konkurenční AMD, používalo podobná zavádějící srovnání, například použití nějakého efektivního a rychlého modelu nové řady a srovnání s poměrně pomalým modelem starší generace, který má ale třeba uměle nadhodnocené TDP nebo hodně vysoké napětí. Při srovnání třeba poměru skóre v 3DMarku lomeno TDP pak vyjdou nerealisticky vysoká zlepšení (mezi 28nm oficiálně 180W Radepnem R7 280X a 14nm 110W Radeonem RX 470 například „vycházelo“ až 2,8×). V krátkosti – opět si raději s hodnocením počkejme na normální recenze.
Článek pokračuje na další straně parametry karty GeForce RTX 3090, nejvýkonnějšího Ampere.
Galerie: Představení grafik Nvidia GeForce RTX 3090, RTX 3080, RTX 3070 a architektury GPU Ampere
GeForce RTX 3090: 350W ultra highend
Teď ke třem modelům Ampere, která Nvidia oznámila. Králem nabídky bude GeForce RTX 3090, kterou Nvidia charakterizuje jako nekompromisní řešení pro maximální herní výkon. Jen-Hsun Huang ji připodobnil ke kartám Titan (čímž asi ale myslel ty starší, než se z nich stala oficiálně poloprofi karta na půl cesty ke Quadrům), nicméně v kontextu nabídky zbylých karet je evidentní, že jde hlavně o následníka GeForce RTX 2080 Ti, který ovšem bude o poznání dražší.
RTX 3090 má 10 496 shaderů (82 SM, což ale zřejmě není plně aktivní verze GPU GA102). Jejich základní frekvence je 1,40 GHz, frekvence boostu 1,70 GHz. Kde přesně bude takt reálně při hraní, to je otázka. Dřív to bývalo často o dost výš než udává boost clock, ale teď se to může změnit, když má GPU dvojnásobek ALU na blok SM.
Karta má přesně dle úniků 24 GB paměti nového typu GDDR6X, která používá signalizaci PAM4 pro zvýšení efektivní frekvence (podrobně jsme ji popisovali v tomto článku). Ta poběží na efektivním taktu 19,5 GHz, což kartě dodá 936 GB/s propustnosti. Celkově má karta TDP 350 W, přesně jak uváděly úniky. Mimochodem, RTX 3090 má jako jediný Ampere jeden konektor NVLink a podporuje SLI.
Výkon karty zatím byl předestřen zhruba. V FP32 má mít teoretický výkon až 35,7 TFLOPS díky zdvojeným FP32 jednotkám (to je údaj pro frekvenci boostu). Výkon tensor jader má být až 285 TFLOPS při výpočtech maticových operací neuronových sítí. A výpočetní výkon RT jader údajně dává ekvivalent 69 TFLOPS (to je asi aproximace výkonu, který by potřebovaly shadery pro stejné ray tracingové výpočty).
Nvidia tvrdí, že karta bude až 1,5× rychlejší, než Titan RTX (plně aktivní čip TU102, jenž je cca zhruba o desetinu rychlejší než RTX 2080 Ti). Nvidia při odhalení karet uváděla většinu údajů o výkonu pro hry s raytracingovými efekty a při použití upscalingu DLSS, takže není jisté, zda stejné zlepšení je i pro běžné rasterizační hry (nebo bude vycházet líp/hůř). Obecně asi bude lepší zatím brát všechny oficiální benchmarky s rezervou, protože mohou být selektivní, a počkat na to, jaký výkon shledají za pár týdnů nezávislé recenze.
Cena karty má začínat na 1499 dolarech, doporučená česká cena je 40 999 Kč. Vydání bude 24. září (septembra) tohoto roku.
Nová (částečně) koncepce chlazení u karet Founders Edition
Chladič karty Founders Edition přímo od Nvidie bude tříslotový a hodně velký. Jak už jsme viděli dříve, má dva ventilátory, z nichž jeden je na vrchu karty a místo tlačení vzduchu ho nasává, takže vzduch jde skrz konec chladiče nahoru směrem k procesoru, což by mělo dávat lepší airflow ve skříni. První ventilátor by měl tlačit vzduch ven záslepkou, i když část ho možná bude unikat i do skříně, to uvidíme. Ventilátory budou samostatně regulovatelné a ten horní má samozřejmě odlišný tvar a profil lopatek.
Nvidia toto prezentuje jako úplně novou koncepci chlazení, ale není to tak docela pravda. Jak jsme podotýkali už dříve, průchozí konec karty vylepšující airflow už měla řada nereferenčních grafik, počínaje zřejmě různými Radeony R9 Fury z roku 2015. A od té doby to nejspíš měly i nějaké nereferenční GeForce.
U těchto karet nebyl nahoře výtažný (výcucný?) ventilátor, ale klasicky do pasivu foukající ventilátor dole. To by však na principiální funkci (rostlináře) víceméně nemělo mít vliv. Design Nvidie má asi přínos hlavně ve velikosti profukovaného okna, samotné umístění obráceného ventilátoru navrchu nějaký revoluční význam asi nemá.
Verze karty od standardních výrobců asi toto pojetí s ventilátorem nahoře nebudou přejímat, místo toho budeou mít tradiční otevřené chladiče s axiálními ventilátory. Většinou zdá se také tříslovové, tříventilátorové a napájené dvěma osmipiny. Část těchto karet ovšem také bude nechávat konec karty průchozí, ale v menší míře než Founders Edition.
Extrémně zahuštěné PCB
Kvůli vybrání pro ventilátorový průduch mají karty velmi malé kompaktní PCB, kde jsou komponenty enormně nahuštěné (VRM hned vedle pamětí ve dvou sloupcích po obou stranách). Speciální 12pinový konektor pro napájení šetří místo (ale bude vyžadovat adaptér nebo nové kabely, ten by měl být přibalen). Nvidia uvádí, že desku zmenšila o 50 %.
Dokonce je zdá se pro úsporu nějaký mikrořadič či řídící čip osazený pod jedním z konektorů DisplayPort. Napakovanost tohoto PCB je ale asi i určité riziko. Nvidia si bude muset dát velký pozor při chlazení, aby kumulace hřejících komponent dávajících dohromady víc jak 300 W tepla nevedla k selháním a předčasné smrti karet.
Při odhalení uváděl Jen-Hsun Huang, že chladič Founders Edition pro RTX 3090 údajně chladí s až 10× nižší hlučností a dosahuje až o 30 stupňů nižší teplotu než chladič na kartě Titan RTX. Nevíme ale, za jakých to má být podmínek, takže to zatím berte s rezervou. Hodnocení opět bude lepší nechat na recenzích. Spoustu obrázků chladičů Founders Edition této i ostatních následujících karet můžete vidět v galerii níže.
Článek pokračuje na další straně parametry karty GeForce RTX 3080, druhého a o dost dostupnějšího Ampere.
Galerie: Představení grafik Nvidia GeForce RTX 3090, RTX 3080, RTX 3070 a architektury GPU Ampere
GeForce RTX 3080: o dost dostupnější, pořád silná?
Zatímco předchozí stránka asi kvůli ceně hodně lidí nepotěšila, i když parametry RTX 3090 jsou úctyhodné, zde to bude o hodně veselejší, protože druhý model v pořadí stojí o dost méně.
RTX 3080 by měla být založené na stejném GPU GP102 a snad i stejných PCB (a v případě nereferenčních karet i stejných chladičích), což dává tušit, že pořád dostanete hodně ampérů (doufejme, že vždy jen metaforicky). Karta má 8704 shaderů (4352 podle předchozích úniků krát dva), takže Nvidia jich proti RTX 3090 zhruba šestinu vypnula, a o něco vyšší takty – 1,44 GHz v základu a 1,71 GHz v boostu.
Paměti jsou stále GDDR6X, byť Nvidia u tohoto levnějšího modelu osadí čipy s frekvencí jen 19,0 GHz efektivně. Bude také použito jen 320 bitů sběrnice, což sníží propustnost na 760 GB/s. Zejména ale Nvidia osadí každý kanál jen jedním čipem (ty tak budou jen z jedné strany karty, zatímco u RTX 3090 na obou), takže kapacita dosahuje jen 10 GB. Mezi RTX 3080 a RTX 3090 bude v tomto velká propast, kdy u tohoto modelu dokonce klesne kapacita proti RTX 2080 Ti (11 GB).
S touto výbavou karta dosahuje teoretického výkonu 29,8 TFLOPS v FP32. Tensor jádra mají mít potenciál až 238 TFLOPS pro AI výpočty a ekvivalent výkonu RT jader v operacích hledání raytracingových průsečíků je podle Nvidie 58 TFLOPS. RTX 3080 má podle tohoto asi 83 % výkonu RTX 3090. TDP ale kleslo ani ne o desetinu a pořád bude hodně vysoké: 320 W.
V prezentaci Jen-Hsun Huang uvádí, že tento model je údajně až dvakrát rychlejší než GeForce RTX 2080 s 2944 shadery (škálování není tedy úplně lineární), toto je ale asi opět ve hrách s ray tracingovými efekty a DLSS, plus je to třeba coby oficiální číslo brát opatrně.
U RTX 3080 je největší posun proti Turingu, ale vykoupený spotřebou
Nicméně RTX 3080 bude zřejmě Ampere s největším navýšením výkonu proti srovnatelnému Turingu. Taky je ale dobré pamatovat, že je to díky výraznému navýšení příkonu. RTX 2080 měla TDP jen 215 W, takže 100% zrychlení dle Nvidie je při 50% zvýšení spotřeby.
Dobrá zpráva: Cena nakonec nenarostla
GeForce RTX 3080 půjde nakonec na trh jako první, tedy ještě před větším bratrem. Má být uvedena 17. září/septembra a oficiální cena je 699 dolarů. Zde už naopak můžete slavit, protože podle drbů měla být cena o sto babek amerických vyšší, což naštěstí dotyčnému twitteristovi nevyšlo. Nakonec se proti kartám Turing cena modelu „80“ nezvýšila (jsme rádi, že Nvidia nezůstala u svého zdražovacího trendu z předchozích generací). Oficiální česká cena je 18 999 Kč.
Founders Edition
Karta bude mít opět provedení Founders Edition se stejným chladičem, jako má RTX 3090, ten ale asi bude zmenšený (PCB ovšem asi bude uvnitř stejné). Nvidia se chlubí, že karta má 18 napájecích fází (u RTX 3090 jich tedy asi bude ještě víc) a podle neoficiálních drbů je prý deska 12vrstvá.
Nvidia potvrdila, že je zpracovaná dražší nadstandardní technikou „Back Drill“, kdy jsou kontakty, které nejdou skrz všechny vrstvy PCB zespodu po spájení odvrtány, aby přebytečný cín v díře nevytvářel v signálu sekundární odrazy. Toto je možná nutné kvůli GDDR6X. PCB obecně asi bude dost drahé na výrobu.
Nvidia uvádí, že chladič je až 3× tišší než chladič Founders Edition u karet Turing a až o 30 % efektivnější. Také má umožňovat až o 55 % vyšší tok vzduchu (otázka, zda zároveň s tím 3× ztišením). Opět je zde asi lepší počkat na testy.
Článek pokračuje na další straně parametry karty GeForce RTX 3070, mainstreamového Ampere.
Galerie: Představení grafik Nvidia GeForce RTX 3090, RTX 3080, RTX 3070 a architektury GPU Ampere
GeForce RTX 3070: karta pro masy
Také zde to cenově naštěstí bude ne jako podle drbů, ale nepředbíhejme. Třetí model Ampere bude GeForce RTX 3070, jejíž parametry již také máme. Nvidia to zatím nepotvrdila, ale zde se asi bavíme již o odlišném GPU (GA104?). Tato karta má 5888 shaderů (2944×2) na taktu 1,50 GHz v základu a 1,73 GHz v boostu.
Paměti jsou, přesně jak říkal web VideoCardz, už jenom typu GDDR6. Běží ale na vyšší rychlosti než u Turingu, tato grafika jako první konečně provozuje GDDR6 na původně plánovaném efektivním taktu 16,0 GHz. Aktualizováno: zde se uniklé informace a první specifikace mýlily, ve skutečnosti je takt GDDR6 u těchto grafik zcela stejných 14,0 GHz efektivně.
Její sběrnice je 256bitová, takže to dává propustnost 448 GB/s. Jak už asi tušíte podle sběrnice, kapacita paměti zůstala 8 GB bez progresu proti GTX 1070 a RTX 2070. Ovšem když má nová RTX 3080 jen 10 GB, tak zde to asi už nepřekvapí.
TDP této grafiky bude výrazně nižších 220 W, zatím nevíme, zda je také 8nm od Samsungu, nebo je třeba použitý jiný proces (spíš asi ne). Teoretický výkon je 20,4 TFLOPS v FP32, 163 TFLOPS pro AI operace v Tensor Cores a ekvivalent potenciálu RT jader je 40 TFLOPS. Je to asi 57 % hrubého výkonu RTX 3090 při 63 % její spotřeby.
Přímo v oficiální prezentaci Nvidia tvrdí, že RTX 3070 má být rychlejší než GeForce RTX 2080 Ti, což by bylo docela slušné. Proti RTX 2070 pak má být karta o 60 % rychlejší. Tipneme-li podle grafu Nvidie, tak by to snad mohlo být i 40% až 50% zlepšení proti RTX 2070 Super. Pro přesnější a neutrálnější posouzení opět počkejte na recenze, je možné že je to zde trošku zkresleno tím, že se udávají výsledky pro ray tracing/DLSS nebo něco podobného.
Tato karta ještě nemá uvedené přesné datum uvedení, má ale vyjít v říjnu (októbri) 2020, takže také celkem brzy. A jak už jsme předestřeli, také zde je cena relativně dobrá. Totiž, stejná jako v generaci Turing. RTX 3070 stojí oficiálně od 499 $, česká oficiální cena je 13 999 Kč.
Founders Edition
I od této karty bude Nvidia nabízet i vlastní model Founders Edition. Jeho chladič bude zdá se konvenčnější s dvěma axiálními ventilátory vespod. Shora je ale opět backplate a PCB vybrané, takže vzduch bude opět „oknem“ v kartě profukovat skrz nahoru. Tady je to už vyloženě přesně jako u oněch nereferenčních pionýrů tohoto zlepšováku (doufejme, že Nvidia docílí toho, že se toto bude používat více místo zbytečně dlouhých prázdných PCB, jaké některé tříventilátorové karty používají).
Provedení Founders Edition má podle obrázku stále napájení dvanáctipinovým konektorem a bude potřebovat adaptér (snad bude i u této karty v ceně). Normální nereferenční karty mají mít napájení jedním osmipinem.
Jak se vám líbí Nvidia GeForce RTX 3000 Ampere?
A to je zatím vše. Recenze karet s nezávislým změřením výkonu novinek by měly vyjít při vydání během pár týdnů. Více o architektuře, například o tom, jak přesně fungují ony duální jednotky FP32, se snad dozvíme v nadcházejících dnech.