Detaily RDNA 3 GPU pro Radeony RX 7000: Čipy jsou extrémně malé, budou na Nvidii stačit?

13. 8. 2022

Únik specifikací next-gen GPU od AMD vyvolává otázky. RDNA 3 je optimalizovaná na nízkou cenu, ale bude při tom mít i dost vysoký výkon proti hrubé síle konkurenčních GeForce RTX 4000?

Vypadá to, že máme zásadní informace o chystaných GPU nové generace od AMD s architekturou RDNA 3, vyráběných na 5nm procesu. Tyto čipy budou základ grafických karet Radeon generace RX 7000, které budou konkurovat grafikám GeForce RTX 4000 od Nvidie. Web Angstronomics publikoval jejich specifikace a také velikosti čipů, které budí pochybnosti, zda mohou mít konkurenceschopný výkon. Na druhou stranu by mohly být relativně levné.

Specifikace čipů AMD se již dříve objevily, a to ve dvou vlnách – nejprve se hovořilo o těchto, před pár měsíci jsme se dozvěděli, že počty výpočetních jednotek jsou nižší. Únik od Angstronomics je zatím asi nejdetailnější (a poměrně reálně vypadající) zprávou. Podle tohoto webu AMD specifikace víceméně určilo v roce 2019 a byly pevné od roku 2020 – toto dává smysl, protože změny lze naposled udělat jen dlouho před tapeoutem a ještě déle před vydáním. Pokud tedy při vývoji byly zvažovány vyšší počty jednotek (těch údajných 15 360 shaderů pro Navi 31), muselo to být ještě předtím.

Highend: Navi 31

Z předchozích úniků platí docela podstatná část, ale stejně zásadní jsou i věci, které, zdá se, budou jinak. Nejvýkonnější GPU má být Navi 31, které je v linuxových ovladačích nyní údajně maskováno pod označením „Plum Bonito“ a interně má označení architektury gfx1100. Toto GPU bude mít údajně 48 workgroup processorů (WGP), což odpovídá 96 CU. Nicméně jeden WGP bude obsahovat dvojnásobek shaderů či FP32 jednotek proti architekturám RDNA 1 a 2, tedy 256 shaderů neboli 128 na jednu CU. Navi 31 díky tomuto bude mít 12 288 shaderů (v souladu s informacemi od Greymona55).

Rozděleno to bude do 6 shader enginů / 12 shader array. Co se dále potvrzuje (tedy alespoň na úrovni neoficiálních informací, definitivně potvrzeno v silném slova smyslu to samozřejmě ještě není – tyto informace pořád musíte brát s rezervou): Navi 31 bude mít 384bitovou paměťovou sběrnici, kterou AMD od éry architektury GCN několik let nepoužívalo. Osazené na ní budou paměti GDDR6, ale není řečeno, v jaké kapacitě nebo na jakém taktu. To není striktně vzato část specifikací samotného GPU.

Angstronomics také potvrzuje, že GPU Navi 31 bude čipletové a složené ze sedmi čipletů, v tomto tedy předchozí úniky také nekecaly (nekecá-li Angstronomics). Má to být jeden čiplet GCD (Graphics Compute Die), jenž je 5nm (TSMC N5) a obsahuje výpočetní jednotky. K němu je pak připojeno šest 6nm (TSMC N6) čipletů MCD – Memory Chiplet Dies. Tyto čiplety budou implementovat část paměťového řadiče (s šířkou 64 bitů) a blok Infinity Cache.

Zmenšená Infinity Cache

Až potud to tedy dosavadní drby dobře trefily, ale teď přichází změna. AMD totiž překvapivě použije menší kapacity Infinity Cache než u předchozí generace, ač se očekávalo naopak zvětšení. Podle Angstronics je v jednom MCD jen pouhých 16 MB Infinity Cache. Základní verze GPU Navi 31 má tedy jenom 96MB Infinity Cache, zatímco Navi 21 má k dispozici kapacitu 128 MB.

Je docela otázka, co to znamená pro dosažitelný výkon, a zda tím pádem AMD s Navi 31 nedosáhne jen poměrně menšího výkonnostního skoku, který nebude stačit na údajně víc jak 2× mezigenerační zvětšení výkonu, které se čeká od Nvidie. Podle názoru ostatních leakerů se zdá, že Navi 31 nebude schopné dosáhnout na stejný výkon jako nejvýkonnější čip Nvidie (AD102). Ta by tak měla mít zajištěnou „korunu“ nejvýkonnějšího jednočipového GPU, byť to může být za cenu horší spotřeby a ceny.

AMD CEO Lisa Su s GPU Navi 21 během vydání Radeonů RX 6000 v roce 2022 (zdroj: AMD)

3D Infinity Cache „1-hi“

Je nicméně pravda, že mimo tuto základní verzi bude existovat také modifikace, která bude mít místo klasických MCD čipletů osazené 3D verze, kdy jsou zřejmě na sobě spojené dva čiplety MCD. Tato konfigurace Navi 31 „1-hi“ bude tedy mít 192 MB Infinity Cache.

AMD prý původně zvažovalo ještě verzi 2-hi, což by zřejmě byly tři MCD čiplety na sobě a celé GPU by mělo 288 MB Infinity Cache, ale toto prý bylo zrušeno, protože by výrobní náklady byly v poměru k užitku příliš vysoké. Slabina je asi to, že z přídavných MCD čipletů se využívá jen SRAM, ale řadič GDDR6 je v nich zbytečný. Běžná verze s jednovrstvými MCD má mimochodem označení „0-hi“. Vedle procesů N6 a N5 od TSMC bude GPU používat i jeho pouzdření. Vícevrstvé (3D) verze MCD používají pouzdřicí technologii TSMC SoIC.

Opravdu tak malé?

Podobné otázky jako malá cache také vzbuzuje plocha čipu. Podle Angstronomics má 5nm čiplet GCD plochu jenom 308 mm². Je to díky tomu, že se z něj odstranily poměrně velké řadiče pamětí a bloky Infinity Cache, které jsou v 6nm čipletech MCD (jeden má plochu 37,5 mm²).

I tak je to ale hodně malá plocha. AMD údajně skutečně hodně překopalo výpočetní jednotky a díky tomu údajně jeden workgroup processor RDNA 3 s 256 shadery má menší plochu než jeden WGP architektury RDNA 2 se 128 shadery. A to je prý při porovnání na stejném procesu (RDNA 3 totiž bude mít implementaci i na 6nm procesu, kterou lze porovnat s 6nm Navi 24). Toto zmenšení je prý umožněno zjednodušením jednotek o různé legacy funkce.

Highendový model s TDP do 375 W?

Asi se dá předpokládat, že AMD v plnotučné variantě grafiky použije toto GPU v plné palbě, tedy s 12 288 shadery a 96, respektive 192 MB Infinity Cache (1-hi MCD) – na prodej tedy asi budou dvě verze. Možná něco jako Radeon RX 7900 XT a Radeon RX 7900 X3D(?).

Tato karta bude mít patrně 24GB paměť GDDR6 (kvůli 384bitové sběrnici) a zdá se, že Angstronomics už měl možnost vidět referenční kartu (nebo spíše asi její 3D rendery). Má prý jít o tříventilátorový chladič podobný tomu u Radeonu RX 6900 XT, ale o trošku vyšší. Prý na něm budou tři červené pruhy vedle napájecích konektorů.

Referenční provedení grafiky AMD Radeon RX 6900 XT 06

Referenční provedení grafiky AMD Radeon RX 6900 XT (zdroj: AMD)

A pozor, zajímavá informace je konfigurace napájení – to je prý pořád tvořeno dvěma osmipinovými konektory. To je důležité – jednak tato karta nebude potřebovat nový zdroj či novou kabeláž či adaptéry (zatímco u highendových GeForce RTX 4090 se asi dá čekat potřeba ATX 3.0 / PCIe 5.0 zdrojů, nebo alespoň adaptérů na „hloupý“ 12pin).

Vedle toho by ale dva konektory měly znamenat, že TDP bude maximálně „jen“ 375 W. Osmipiny totiž dávají každý 150 W a ze slotu na desce lze dle specifikací vytáhnout 75 W (ve skutečnosti to tolik není, protože grafika bere z 12V větve, kde je limit nižší, ale to se, zdá se, dost ignoruje). Je však možné, že GPU bude prostě brát z kabelů víc než 150 W, což už se dříve často dělo, takže TDP může být výš. Nereferenční karty mohou samozřejmě mít vyšší TDP a napájení třemi osmipiny. TDP 375 W by nakonec asi bylo ještě relativně „dobré“ – sice je to pořád odporně víc než to, co jsme před pár lety považovali za rozumný limit (250–300 W), ale pořád lepší než 450W spotřeba chystaná Nvidií pro GeForce RTX 4090, nemluvě o zprávách o 800W Titanu.

Levnější verze s 10 752 shadery, 20GB pamětí

Angstronomics zmiňuje, že Navi 31 bude jako obvykle prodávané také v částečně ořezané (deaktivované) konfiguraci, umožňující upotřebit zmetky z výroby. Tato karta (Radeon RX 7800 XT? RX 7900?) má mít aktivních jen 42 WGP (84 CU), což by dávalo 10 752 shaderů. Bude také osekaný paměťový subsystém – sběrnice bude jen 320bitová, takže karta by asi mohla nést 20 GB paměti GDDR6. S tímto se také sníží kapacita Infinity Cache na 80 MB. Bude totiž aktivních jen pět čipletů MCD (šestý možná bude fyzicky přítomen, trochu pochybujeme, že by AMD vyrábělo zvlášť GPU bez něj).

Navi 32: stále čiplety, ale už bez 1-hi, mobilní highend

Doteď jsme se bavili o nejvýkonnější variantě Navi 31, ale Angstronomics uvádí i data pro levnější varianty. Navi 32 („Wheat Nas“ či také gfx1101) bude pořád čipletové GPU vyráběné ve stejném stylu jako Navi 31. Jeho 5nm GCD čiplet ale má jen 30 WGP (60 CU) a tím pádem 7680 shaderů / jednotek FP32. Bude to členěno na 3 shader enginy a 6 shader array. Toto GPU má 256bitovou sběrnici, takže asi ponese 16 GB GDDR6.

Má být tvořeno jedním 5nm GCD o ploše jen okolo 200 mm² a čtveřicí 6nm MCD, které budou stejné jako u Navi 31 (37,5 mm²), zde se tedy už ušetří na návrhu. Toto GPU tedy bude mít jen 64MB Infinity Cache, opět je to menší než 96MB kapacita čipu Navi 22. Zde AMD variantu 1-hi s dvojnásobnou kapacitou také zvažuje nebo zvažovalo, ale kvůli nákladům na výrobu asi nemusí být uskutečněna.

Toto GPU bude nejvýkonnější verzí RDNA 3, která se dostane do notebooků, kde bude highendem (Navi 31 se pro ně tedy asi neplánuje). Uvedení tohoto čipu na trhu má být až v roce 2023 – notebookové grafiky Radeon RX 7000 nejspíš budou odhalené na CES 2023 a ani desktopová verze asi před koncem roku nevyjde.

Navi 33: levná 6nm verze, cílená na notebooky

Třetí levnější varianta Navi 33 se vymyká. Jak už jsme věděli z předchozích úniků, již není čipletová, ale monolitická, tvořená jedním 6nm křemíkem. Jeho plocha je údajně 203 mm², ale obsahuje pořád 16 WGP (32 CU) neboli 4096 shaderů. Je to ve 2 shader enginech a 4 shader array.

Toto GPU bude s 4096 shadery výrazně menší než 7nm Navi 23 s 2048 shadery (které pohání karty Radeon RX 6600 XT, RX 6650 XT), což je opět dost pozoruhodné. Má nicméně také jen 128bitovou sběrnici, na níž by tedy asi mohlo mít 8 GB paměti GDDR6. Jeho Infinity Cache má kapacitu pouze 32 MB, což je dost málo. I zde je tedy dost otázka, jakého se s tím dosáhne výkonu. Dříve se hádalo, že by toto GPU mohlo dosahovat výkonu až okolo Radeonu RX 6900 XT (asi ale jen v 1080p a maximálně 2560 × 1440 bodech). Ale s touto úrovní cache a paměťové propustnosti se to zdá dost nepravděpodobné.

Nicméně by mohlo jít o dost levné GPU, vzhledem k rozměru na relativně levnějším 6nm procesu (levnějším v porovnání s 5nm a 4nm). Podle Angstronomics bude výkon vyšší než u nejrychlejších grafik Intel Arc generace Alchemist (čímž se myslí GPU ACM-G10, také s 4096 shadery a na 6nm procesu), ale jeho výrobní náklady jsou poloviční (čip Intelu má plochu 406 mm²) a dosáhne tohoto výkonu s nižší spotřebou.

Design Navi 33 je údajně hodně mířen na notebooky, které dokonce mají být primárním cílem. Mobilní Radeony s Navi 33 by tak mohly být relativně rozšířené, nebo by to aspoň AMD tak chtělo (segment herních notebooků má ale Nvidia takřka ovládnutý a Radeony se prosazují těžko). Zajímavé je, že tento čip je prý pinově kompatibilní a může být osazen na desky notebooků navržené pro GPU Navi 23 – Radeon RX 6600M, 6650M, 6650M XT a možná i RX 6600S, 6700S a 6800S. Toto by mu mohlo rozšíření trošku usnadnit.

GPU AMD Navi 23 se 128bitovou sběrnicí a 2408 shadery, ilustrace (zdroj: AMD)

Desktopové verze budou samozřejmě existovat také. Zaměření na notebooky by ale mohlo znamenat, že GPU bude mít rozhraní jen PCIe 4.0 ×8 (Navi 31 a 32 snad budou PCIe 5.0 ×16, tyto detaily ale Angstronomics neuvádí) a je otázka, zda se také třeba neobjeví nějaká omezení počtu obrazových výstupů nebe enkodérů videa, jaké nastaly u čipu Navi 24 v Radeonech RX 6500 XT / RX 6400.

Malé čipy díky odtučňování architektury RDNA 3

Už bylo zmíněno, že 256 shaderů (1 WGP) architektury RDNA 3 údajně potřebuje (asi na 6nm procesu) o něco menší plochu než 128 shaderů RDNA 2. AMD se prý při designu architektury RDNA 3 (gfx11) zaměřilo zejména na plochu a tím i na cenu. Pipeline a CU byly optimalizované tímto směrem, což například znamenalo odstranění starších funkcí (spekuluje se o legacy geommetry pipeline).

Jednou z těchto optimalizací má být technologie „OREO“. Tato zkratka se již dříve v únicích objevila díky linuxovým ovladačům a znamená Opaque Random Export Order. Jde o změnu pipeline proti RDNA 2, která vykonávala shadery stylem Out-of-Order, ale pak musely být ve speciálním Re-Order Bufferu zase seřazeny do správného pořadí. V architektuře RDNA 3 má následující fáze zpracování (Blend) schopnost akceptovat výsledky shaderů mimo pořadí a její výstup je pak in-order, takže odpadla nutnost mít onen ROB před ní a uspořila se část plochy jednotek.

Dalším zeštíhlováním, které je zmíněno, je redukce výkonu ve výpočtech FP64 – místo 1/16 nyní tyto operace poběží s výkonem jen 1/32.

GPU architektura AMD RDNA 3, prezentace na Financial Analyst Day 2022 (zdroj: AMD)

Ono zeštíhlování je asi také možná důvodem pro zmenšení Infinity Cache proti předchozí generaci. Mimochodem, AMD ji interně označuje MALL Cache – Memory Attached Last Level Cache (jelikož je přidružená k paměťovým řadičům). V generaci RDNA 3 tuto cache firma tvoří z bloků, které mají poloviční kapacitu proti předchozí generaci. To je asi proto, aby se i při poloviční velikosti zachovala plná propustnost, která je asi hodně cenná pro zvýšení výkonu.

AMD už dříve uvádělo, že u čipů RDNA 3 byly změněny algoritmy rozhodující o tom, která data držet v Infinity/MALL Cache. Toto snad je snaha z menších kapacit dostat co nejvíce výkonu. Doufejme, že se ukáže, že větší kapacity u RDNA 2 nebyly až tak potřeba a touto redukcí kapacit AMD novou generaci RDNA 3 nepřizabilo.

Zdroj: Angstronomics