Včera Intel odhalil novou generaci svých samostatných grafických karet Arc, nazvanou Battlemage nebo také „Série B“. Ta obsahuje novou výrazně zlepšenou architekturu, s níž má Arc teď druhou šanci získat si přízeň hráčů – byť to bude muset dělat hlavně pomocí nízkých cen, protože nyní vydaná GPU budou konkurovat jen v pásmu levnějších mainstreamových grafik. Zatímco samotným kartám jsme věnovali tento článek, zde se podíváme na samotnou architekturu.
Nová architektura Xe2
Karty Battlemage jsou založené na čipech vyráběných 5nm procesem TSMC (dle specifikací jde o proces N5) s architekturou Xe2. Někdy se objevuje také označení Xe2 HPG pro odlišení od verze Xe2 LPG, která už je integrovaná v procesorech Lunar Lake. Architektura by měla při stejném počtu výpočetních jednotek podávat znatelně lepší výkon než původní Xe HPG v kartách Alchemist.
Xe2 je o dost zlepšená proti architektuře Xe1 používané v prvních kartách Arc. Intel uvádí, že v té se soustředil na úkol vůbec poprvé „vyškálovat“ GPU architekturu, která původně pocházela z integrovaných grafických jader s omezeným výkonem na větší „šířku“ výpočetních jednotek a pamětí. Xe2 už je daleko víc „nativní“ samostatné GPU a byla příležitost architekturu lépe optimalizovat na vyšší výkon samostatných grafik. Doufejme, že to také znamená například snížení spotřeby v klidu a lepší kompatibilitu (v té měly Arcy generace A ten problém, že nefungovaly dobře bez podpory PCIe Resizable BAR), což asi uvidíme až z recenzí.
Architektura Xe2 má mít menší softwarovou režii v ovladačích, čili bude spotřebovávat méně výkonu CPU. A běžící hry u ní mají dosahovat lepšího využití jednotek, které čip poskytuje, a účinněji mezi ně rozdělovat práci, zatímco v předchozích GPU Alchemist (architektuře Xe HPG) je využití hardwarových prostředků méně efektivní.
Architektura má být optimalizovaná na zlepšení latence jednotlivých operací a omezení prostojů při jejich zpracovávání. Podle Intelu je výkon na jedno „jádro“ GPU (Xe Core) u Xe2 až o 70 % lepší proti architektuře Xe1/Alchemist a energetická efektivita (poměr výkon/spotřeba) je až o 50 % lepší.
Základními stavebními bloky architektury jsou Xe Core a tzv. Render slice, která obsahuje čtyři Xe Core. Jedno Xe Core poskytuje 128 shaderů v osmi vektorových jednotkách XVE – ty zpracovávají operace nativně s šířkou SIMD16, což zlepšuje efektivitu proti dříve používaným SIMD8. Xe Core má vlastní L1 cache a jsou k nim zároveň připojené jednotky XMX pro maticové operace (akceleraci umělé inteligence, jde tedy o ekvivalent tensor jader u Nvidie), jedno Xe Core má rovněž 8 jednotek XMX (s celkovou šířkou 2048 bitů), a jedna Render slice tedy 32.
Na jednotkách XVE i XMX lze provádět maticové operace s datovými typy FP16, BFloat16, INT8, INT4 a INT2, pouze na obecných shaderech (XVE) jsou podporovány výpočty v FP32 a FP64 (ty asi ale se sníženým výkonem) a také složitější matematické operace (Sin, Cos, Log, Exp). V rámci Xe Core by mělo být možné současně zpracovávat operace v jednotce XMX i obecné výpočty na shaderech, kde by navíc mělo být možné současně zpracovat celočíselnou i floating-point operaci.
Silné akcelerátory ray tracingu
V jedné Render slice je také na každé Xe Core přítomná jedna RTU – jednotka pro akceleraci ray tracingu (4 na jednu Render slice). Akcelerace ray tracingu je v architektuře Xe2 vylepšená proti generaci Alchemist, ačkoliv už tam byla na dobré úrovni. Každá RTU má 16kB cache pro elementy BVH a tři traversal pipelines (proti dvěma v Alchemist), s nimiž dokáže celkově zpracovat 18 průsečíků s pomocnými BVH boxy (o 50 % více než v Alchemistu) a dva průsečíky s trojúhelníky za cyklus. Pro srovnání – u AMD RDNA 2 a RDNA 3 jsou to čtyři boxy a jeden trojúhelník za cyklus (RDNA 4 by snad měla umět dvojnásobek, zatím to ale není potvrzené), u architektury Ada Lovelace v grafikách Nvidia GeForce jsou to čtyři boxy a čtyři trojúhelníky za cyklus. Battlemage / Xe2 má každopádně akceleraci dimenzovanou hodně štědře.
Intel posílil i geometry engine, který jsou spolu se samplery a rasterizérem už obsažený mimo jednotlivé Render slice. V geometrii Battlemage umí zpracovat 3× více vertex fetchů než Alchemist a 3× vyšší je i výkon mesh shaderů. Nová architektura má dále 2× vyšší výkon v blendingu a 2× lepší výkon texturování bez filtrace. Samplování textur probíhá style out-of-order.
Xe2 slice má také o třetinu větší pixel color cache a o 50 % větší HiZ/Z/Stencil cache. Podporuje prefetch render targetů a má zlepšené vyřazování grafických primitiv v rámci HiZ, aby se ušetřila zbytečná práce na objektech, které nejsou na scéně vidět. Vylepšená by měla být i komprese dat v L2 cache GPU. Také Command front end, který výpočetním jednotkám přiděluje práci, doznal vylepšení, nyní nativně podporuje funkci Execute indirect.
Dvě připravovaná GPU?
Zatím byly odhalené dvě grafické karty, které jsou založené na čipu BMG-G21. Ten obsahuje pět „Render slice“, a tedy 20 Xe Core, 20 RTU a 160 jednotek XMX, 20 texturovacích jednotek a 10 ROP (pixel backendů). GPU má 192bitovou paměťovou sběrnici požívající paměti GDDR6 a efektivita paměťových operací je podpořena L2 cache s kapacitou 18 MB.
GPU také obsahuje dva nezávislé multimediální enginy s podporou akcelerace formátů H.264, H.265 (HEVC), AV1 (včetně komprese), VP9 a také XAVC-H (profesionální formát Sony). Na rozdíl od Lunar Lake není přítomná akcelerace formátu VVC.
Podle neoficiálních úniků dříve Intel plánoval tři GPU založené na Xe2. O třídu níže měl být ještě čip BMG-G10, který by snad měl 128bitové paměti, ale tento byl údajně už definitivně zrušen – pokrýval by poměrně nízké cenové spektrum s omezenými možnostmi prodejů a marží. Nad G21 naopak má být třetí čip BMG-G31, který měl mít 32 Xe Core (8 Render slice) čili 4096 shaderů a 256bitové paměti. Toto GPU by tedy mohlo jít výkonem dejme tomu o 50 % výš.
DisplayPort 2.1 a HDMI 2.1, ale bez PCIe 5.0 a VVC
GPU se do systému připojuje přes rozhraní PCI Express 4.0 ×8, používá tedy pro úsporu užší rozhraní. Chvíli se objevovala zpráva, že by už mohl být podporován PCI Express 5.0, to se ale minimálně pro BMG-G21 a karty Arc B580 a B570 nepotvrdilo – nicméně grafice by to v praxi nemělo nějak chybět. BMG-G31 by patrně mělo mít plných 16 linek (a je otázka, zda u něj PCIe 5.0 třeba už nebude aktivní).
Naopak ale čip BMG-G21 umí nejnovější DisplayPort 2.1, který je podporován s rychlostí UHBR 13.5 (stejně jako na Radeonech RX 7700 XT a vyšších, zatímco levnější Radeony RX 7600 a 7600 XT, kterým grafiky s tímto čipem budou konkurovat, umějí jen pomalejší verzi DP 2.1 UHBR 10). Je možné, že eventuální výkonnější BMG-G31 by už mohl umět DP 2.1 s nejvyšší rychlostí UHBR 20. Výstupy čip G21 zvládá až čtyři – trojici DP 2.1 a jedno HDMI 2.1.
Aktualizováno: DisplayPort 2.1 UHBR 13.5 je podporován jen na jednom výstupu, zbylé dva mají podporu pouze DisplayPort 2.1 UHBR 10 (jako v generaci Alchemist). O různých rychlostních stupních DP 2.1 jsme psali zde, pokud potřebujete detaily. Obecně je třeba upozornit, že i rychlost UHBR 10 poskytuje asi o polovinu vyšší propustnost pro obrazová data proti DP 1.4a u starších GPU.
Už skoro proti RDNA 4 a Blackwellu…
Grafiky založené na čipu BMG-G21 vycházejí příští týden 13. 12. (Arc B580) a příští měsíc 16. 1. (levnější Arc B570). Je možné, že výhledově se objeví ještě další modely s tímto čipem, ať už pro herní, nebo pro profesionální „workstation“ segment. Zatím není potvrzeno, kdy nebo zda se dostanou na trh také grafiky s BMG-G31. Pokud je toto GPU stále v přípravě, minimálně asi vyjde o něco později. Tím pádem asi ale bude muset čelit již nové generaci architektur od AMD (RDNA 4) a Nvidie (Blackwell), které by měly vyjít v prvním kvartálu roku 2025, možná již v lednu.
To je obecně slabina Xe2 a Battlemage. Podobně jako předchozí generace Alchemist se Intelu tyto grafiky podařilo vydat se značným zpožděním v době, kdy jejich generační konkurenti od Nvidie a AMD mají za sebou prakticky dva roky na trhu a jsou těsně před nahrazením novými generacemi, které opět zvednou laťku…
Zdroj: Intel