Nvidia potvrdila parametry tří GPU Ada: AD102, AD103 a AD104. Mají rezervu na silnější karty

26. 9. 2022

Nvidia teď potvrdila přesnější parametry svých 4nm GPU generace Ada. Dvě z nich mají víc jednotek, než na nich založené grafiky potřebují – což je důležité: jde o potenciál pro další růst výkonu v budoucnu.

Nvidia teď odhalila novou generaci herních grafik s architekturou Ada Lovelace – GeForce RTX 4090, RTX 4080 a RTX 4080 v osekané 12GB verzi. Ze začátku firma nesdělila přímo detaily o použitých GPU, které ale máme teď. Důležité jsou proto, že nové grafiky čipy nepoužívají naplno – nechávají tu větší, tu menší část neaktivní. A to vytváří rezervu pro výkonnější modely (možná označené Ti nebo Super) v budoucnu.

Highend AD102 zatím nejede naplno

Nejvýkonnější GPU této generace je AD102, tento čip obsahuje 76,3 miliardy tranzistorů a zabírá na použitém výrobním procesu 4N celkem 608 mm². Dříve spekulovaná, respektive uniklá specifikace čipu byla potvrzená: má skutečně 144 bloků SM, což znamená 18 432 shaderů (FP32), 576 tensor jader a 144 RT jader. GeForce RTX 4090 z toho využívá jen 88,9 % (128 bloků SM / 16 384 shaderů).

Paměťová sběrnice GPU AD102 je skutečně 384bitová, v tom tedy k ořezání nedošlo. Nová informace je ovšem počet rasterizačních jednotek. AD102 má celkem 192 ROP, jejich počet byl tedy značně zvýšen. Je to proto, že GPU je složeno z 12 GPC. Stejně jako u architektury Ampere je počet jednotek ROP závislý na počtu GPC aktivních v čipu, zdá se. Každý aktivní GPC znamená 16 ROP.

Schéma čipu AD102, kompletní konfigurace (zdroj: Nvidia)

Nvidia také potvrdila, že AD102 obsahuje 96 MB L2 cache, podobně jako AMD u architektury RDNA 2 a RDNA 3 tedy Nvidia přistoupila k masivnímu zvětšení kapacity cache (v generaci Ampere byla L2 cache jen 6 MB). Díky tomu by grafika měla být schopná držet značnou část „horkých“ dat hry v cache, což snižuje závislost na propustnosti hlavní paměti. GPU díky tomu může dosahovat stejného výkonu s nižší propustností.

L1 cache je u architektury Ada údajně stejná jako v architektuře Ampere, 128 kB pro jeden blok SM.

GeForce RTX 4090 je ořezaná na rasterizačních jednotkách a L2 cache

Zdá se nicméně, že jak ROP, tak tato L2 cache jsou zrovna v grafice GeForce RTX značně ořezány. GeForce RTX 4090 používá jen 11 GPC z 12 fyzicky přítomných (a ve dvou jsou ještě nějaké SM vypnuté). Kvůli tomu má GeForce RTX 4090 jenom 176 ROP.

Tip: 3 GHz na GPU Ada je reálná možnost. GeForce RTX 4090 ve hrách boostuje až na 2850 MHz

Kapacita L2 cache je pak u GeForce RTX 4090 jenom 72 MB (75 %). Zřejmě došlo k tomu, že čtvrtina paměťových banků je vypnutá, aby se daly využít částečně defektní čipy. Profesionální verze Nvidia RTX 6000 Ada by měla mít všech 192 ROP (má totiž aktivních 12 GPC) a možná i plnou 96MB L2 cache.

Schéma konfigurace čipu AD102 v grafice GeForce RTX 4090 (zdroj: Nvidia)

AD103: 80, nebo 84 SM?

Druhý čip AD103, který je použitý u GeForce RTX 4080 16GB, je také již potvrzen. Toto GPU je znatelně menší, má plochu jen 378,6 mm², takže by už mohlo být znatelně ekonomičtější na výrobu. Tranzistorů je v něm 45,9 miliardy.

Podle ip je členěný na fyzicky 80 bloků SM – 10 240 shaderů, 320 Tensor jader a 80 RT jader. Na tomto místě je ale dost možná ve specifikacích chyba. Toto GPU má 7 bloků GPC a tím také 112 rasterizačních jednotek (ROP). Jenže v každém GPC by fyzicky asi měl být stejný počet bloků SM a 80 SM není násobek sedmi. Je proto pravděpodobnější, že ve skutečnosti je v čipu 84 SM (7 GPC krát 12 SM). Přesně to ostatně uniklo z ukradeného zdrojového kódu ovladačů Nvidia a jde mimochodem o stejnou strukturu, jakou mělo GPU GA102 v generaci Ampere. Toto zkopírování základní struktury se ještě zopakuje u čipu AD104. V obou případech ale GPU při svém posunu do nižšího výkonnostního segmentu dostalo zúženou paměťovou sběrnici.

L2 cache má dle Nvidie kapacitu 64 MB. I zde je tedy kapacita značná. Čip má 256bitovou paměťovou sběrnici, což je již plně aktivní v GeForce RTX 16GB. Toto GPU také dosahuje zatím nejvyšší rychlosti pamětí ze všech GPU Ada. Není to ale 22,5 GHz efektivně, o kterých jsme psali dřív – dokumenty Nvidie vyjasnily, že by to ve skutečnosti mělo být 22,4 GHz efektivně – propustnost pro GeForce RTX 4080 16GB je tím pádem 716 GB/s místo 720 GB/s.

Je zajímavé, že u tohoto GPU Nvidia používá výrazně méně ořezanou verzi než u AD102 – v RTX 4080 16GB je aktivních 76 bloků SM (9726 shaderů) a všech 112 ROP (i plná L2 cache). I zde časem Nvidia může vydat kartu s plně aktivním čipem, až bude z výroby větší zásoba nejlepších „binů“, ale nárůst výkonu plynoucí z toho, že se aktivují všechny zbývající jednotky, bude mírnější.

I když je pravda, že je-li opravdu ve specifikacích chyba, tak je vypnutých osm SM, a ne jen čtyři (a tudíž mohou být navíc zapnuté). Tento nižší počet vypnutých jednotek by ale měl stačit k tomu, aby se daly pružně využít částečně defektní čipy (pokud u nich defekty nevyřadí více jednotek).

Specifikace prvích tří modelů GeForce RTX 4000

Specifikace prvních tří modelů GeForce RTX 4000 (zdroj: Nvidia)

AD104: mainstream jako jediný používá plně aktivní GPU

Nvidia potvrdila i třetí čip AD104, který je v grafice GeForce RTX 4080 12GB, tato karta je tedy opravdu založená na odlišném GPU proti modelu RTX 4080 16GB. Čip AD104 má plochu 294,5 mm² a obsahuje 35,8 miliardy tranzistorů. Všechny tři čipy mají zřejmě stejný výrobní proces TSMC označený 4N.

AD104 obsahuje fyzicky 60 bloků SM, což je 7680 shaderů, 240 Tensor jader a 60 RT jader. Podobně jako AD103 převzalo rozložení jednotek z GA102, tento čip AD104 zase svými 7680 shadery kopíruje GPU GA103 (to se používá hlavně v noteboocích, takže není tak známé). Počet ROP je u tohoto GPU 80. Kapacita L2 cache je u tohoto GPU 48 MB, což je zřejmě v souvislosti se 192bitovou paměťovou sběrnicí.

V GeForce RTX 4080 12GB je na rozdíl od dvou dražších karet čip AD104 ponechaný plně aktivní. Vzhledem k jeho menší velikosti by měla automaticky být vyšší výtěžnost bezchybných čipů schopných prodeje v kompletní konfiguraci. Nvidia zřejmě ještě uvede nějakou nižší kartu se stejným čipem (RTX 4070 Ti nebo RTX 4070), která absorbuje vyrobené čipy s nějakým defektem.

GPU Nvidia AD102 s architekturou Ada Lovelace, ilustrace (zdroj: Nvidia)

Výrobní proces 4N nerovná se N4

Nvidia také vyjasnila něco k výrobnímu procesu. Ten je poskytován tchajwanským TSMC, má ale poněkud netypické označení 4N, které sedí spíš se značením Samsungu (jeho upravený proces používaný pro grafiky Ampere se značil 8N, běžný proces Samsungu pak 8LPP).

Technologie 4N se sice zjednodušeně označuje jako 4nm proces, ale aby to nebylo jednoduché, není to to samé jako regulérní 4nm proces TSMC N4. Obě technologie jsou spíš paralelní. Nvidia údajně webu HKEPC potvrdila, že jde o optimalizovanou (ve výkonu, ale asi i v hustotě tranzistorů) verzi 5nm procesu N5. Technicky vzato jde tedy o proces 5nm třídy, byť prakticky ho lze zřejmě označovat za 4nm (proces N4 je podobným způsobem vylepšená evoluce procesu N5).