Mobilní procesory Ryzen AI 300 s architekturou Zen 5, ohlášené už v červnu na Computexu, jdou dnes oficiálně do prodeje. A máme k nim i řadu novinek: přibyl třetí model tvořící špičku nabídky a už známe i různé další architektonické podrobnosti notebookové verze Zenu 5 (a Zenu 5c). Včetně informací o implementaci AVX-512, o níž již předtím prosákly určité náznaky a která bude mít nižší výkon než u desktopového plně 512bitového Ryzenu 9000.
Zen 5 a Zen 5c: Hybridní koncepce bez obvyklých nevýhod
Ryzen AI 300 už má také integrované nové jádro Zen 5 (které podle AMD dosahuje v průměru o 16 % lepšího výkonu na 1 MHz). Ryzen 300 AI je interně označovaný také jako APU Strix Point a jde o implementaci Zenu 5 na monolitickém čipu (zatímco desktopový Zen 5 pro socket AM5 je čipletový). Výrobní proces je přitom také 4nm jako u předchozí generace Phoenix (a jejího refreshe Hawk Point), přesněji jde o proces N4P od TSMC. Velikost čipu je docela značná – 232,5 mm².
Čip Strix Point obsahuje 12 jader (které díky SMT dávají 24 vláken), což je první zvýšení počtu jader od osmijádrového Ryzenu 4000 „Renoir“ z roku 2020. Je ale použitá hybridní kombinace, velká plnotučná jádra Zen 5 jsou čtyři, zbylých osm jader je typu Zen 5c.
Architektuře Zen 5 jsme věnovali samostatný podrobný článek s rozborem, ve kterém probíráme, co je na jádrech nové a vylepšené. AMD mezitím dodalo další informace, takže jsme ho nyní aktualizovali a doplnili:
256bitové jednotky pro AVX-512
Hlavní specifikum Zenu 5 v procesoru Ryzen AI 300 (Strix Point) je to, že jeho jednotka provádějící instrukce SIMD je optimalizovaná na nižší výkon, ale lepší spotřebu a menší plochu proti desktopovým Ryzenům 9000. Ty mají plně 512bitové jednotky s dvojnásobným hrubým výpočetním výkonem.
U mobilní verze Zenu 5 v Ryzenu AI 300 AMD použilo verzi Zenu 5, která má údajně stále 256bitové jednotky jako Zen 4. Stále podporuje 512bitové instrukce AVX-512, ale počítá je patrně dvěma průchody jako Zen 4. Tyto užší 256bitové jednotky se přitom týkají jak použitých jader Zen 5, tak jader Zen 5c, není to tedy specifická vlastnost Zenu 5c, ale volba učiněná pro celé APU. Naopak serverový Zen 5c patrně bude 512bitový.
Výkon tedy bude zlepšen různými dalšími architektonickými pokroky Zenu 5, ale nebude zde ono 2× navýšení maximálního teoretického výpočetního výkonu proti Zenu 4. Jaké toto bude mít přesně dopady v reálných aplikacích, uvidíme až po recenzích obou procesorů.
Stejně jako u Zenu 4c by efektivní jádra Zen 5c měla podle AMD mít stejné IPC (tedy stejný výkon na 1 MHz) jako velký Zen 5 a všechny instrukce a technologie velkých jader. Liší se jen optimalizacemi na menší zabranou plochu na čipu (například menším využitím speciálních logických maker, větším zhuštěním díky tomu, že je jádro rozdělené na méně bloků), které současně snižují jejich maximální takt.
Fungovat by to mělo tak, že velká jádra jsou použitá pro jednovláknové a málovláknové programy a hry, zatímco malá jádra se přidají v mnohovláknových úlohách, které vytěžují všechna jádra. Notebookový procesor, který bývá omezen poměrně nízkým TDP, v takových aplikacích stejně poběží na výrazně nižších taktech než v jednovláknovém programu, a tak nemusí nižší strop frekvence u jader Zen 5c ničemu moc vadit. A na rozdíl od přístupu Intelu, jehož malá jádra E-Core mají zcela jinou architekturu, by neměly vznikat vážně problémy, jako když u Intelu musela být vypnutá podpora AVX-512.
V čipu Strix Point jsou jádra Zen 5c podle AMD asi o 25 % menší než velká jádra Zen 5. Nejsou tedy až tak úsporná co do plochy křemíku jako jádra E-Core Intelu. Podle firmy je jejich použití ale cíleno stejně na zlepšení energetické efektivity jako na zmenšení plochy. Procesor by měl alespoň v noteboocích z pohledu spotřeby preferovat spouštění úloh právě na jádrech Zen 5c, přičemž na Zen 5 by měly být umístěny až při potřebě vysokého výkonu.
Takovýto scheduling má na starosti operační systém Windows. Procesor Ryzen AI 300 používá speciální rozhraní, kterým jeho řídicí jednotka dává Windows zpětnou vazbu pro efektivnější přidělování úloh na jeden nebo druhý typ jader. Systém by se tedy měl inteligentně umět přizpůsobovat situaci a povaze běžící aplikace. Tato technologie je odlišná od toho, co používají procesory Intel (tzv. Thread Director), ale plní víceméně stejnou roli. Obecně je ale problém schedulingu u procesorů AMD Ryzen AI 300 mnohem jednodušší, protože oba typy mají stejnou architekturu včetně ekvivalentní podpory SMT a stejný výkon na 1 MHz (až na kapacity L3 cache) a liší se jen maximální frekvencí a o něco lepší energetickou efektivitou u jader Zen 5c.
Návrat ke dvěma CCX
Čip Strix Point má ke svým 12 (4+8) jádrům L3 cache o kapacitě 24 MB, oproti jen 16 MB u předchozích generací APU. Ovšem je to komplikovanější. Ve skutečnosti AMD jádra rozdělilo do dvou bloků CCX. Čtyři jádra Zen 5 jsou vydělená do jednoho CCX, kterému je dáno 16 MB L3 cache (tedy 4 MB na jedno jádro jako u desktopové verze Zenu 5). Efektivní jádra Zen 5c jsou oddělená v druhém CCX, který má současně oddělený blok L3 cache, ale jen s kapacitou 8 MB. Celkově je to tedy 24 MB, ale program běžící na určitém jádru nemá plnohodnotný přístup do celé kapacity, do části L3 cache patřící druhému CCX přistupuje nepřímo přes propojovací logiku procesoru.
Toto je jinak první případ, kdy mají procesory AMD takto asymetrické CCX a asymetrické kapacity L3 cache v přepočtu na jedno jádro. Teoreticky je možné, že díky odladění takovéto konfigurace u čipu Strix Point se otevře cesta k nasazení podobných hybridů i do desktopu a serverů, takže by například nějaký budoucí výkonný Ryzen mohl mít jeden čiplet s jádry „klasik“ a jeden čiplet s úspornými kompaktními jádry. Nebo by dokonce mohly čiplety být přímo vyráběné s mixem jader (například osmi Zen 6 a osmi Zen 6c). Zatím ale o takových desktopových procesorech není nic známo, takže může jít o něco, co přijde až dál v budoucnosti a po konci platformy AM5.
Zredukovaná konektivita optimalizovaná na notebooky
Vedle hybridního mixu jader má Strix Point ještě jednu optimalizaci na použití v noteboocích, která trošku zkomplikuje jeho nasazení v desktopové verzi pro socket AM5. AMD kvůli ploše čipu a také údajně kvůli zlepšení energetické efektivity ubralo z konektivity PCI Express, kterou čip poskytuje. Má jen 16 linek PCIe 4.0, zatímco předchozí APU disponovala 20 linkami. V noteboocích tedy bude k dispozici ×8 linek pro přídavné GPU, PCIe 4.0 ×4 pro SSD a čtyři linky na ostatní účely (Wi-Fi, LAN, druhé SSD).
Není jasné, zda AMD chystá nějakou verzi těchto procesorů pro desktopový socket AM5, tedy něco jako Ryzen 9000G. Ten by musel čtyři linky vyhradit pro čipset (pokud není možné použít pro něj jen dvě) a další linky pro dva sloty M.2, s kterými platforma AM5 počítá. To znamená, že do slotu ×16 pro samostatnou grafiku by desktopový Strix Point mohl reálně poskytnout jenom čtyři linky, nebo by musel osekat konektivitu pro SSD či čipset.
Je však možné, že kvůli velké ploše čipu Strix Point nebude pro AMD stejně ekonomicky únosné APU pro desktop vyrábět a verze do socketu AM5 nevznikne. AMD ale jinak uvádí, že snížení počtu linek bylo rozhodnutí učiněné konkrétně pro tuto konkrétní generaci a je možné, že v dalších generacích se opět pro více linek najde místo. Možná, že následující generace už třeba se Zenem 6 zase i pro desktop bude.
Vedle PCI Express čip poskytuje nativní podporu USB4 (tedy ekvivalent Thunderboltu) s rychlostí 40 Gb/s přímo na čipu, a to u dvou portů. K tomu je dále k dispozici trojice portů USB 10Gb/s (3.2 Gen 2) a tři porty USB 2.0 (ty typicky budou použité pro interní periférie notebooků). Přes USB4 bude tedy možné připojovat externí GPU v docích.
Nová grafika s architekturou RDNA 3.5
Strix Point / Ryzen AI 300 přináší i značné zlepšení v grafickém výkonu, který může poskytnout pro hraní her. Jeho iGPU povýšilo na 16 bloků CU (či 8 WGP), které poskytují 1024 shaderů, 16 ray acceleratorů pro raytracingovou grafiku a 4 Render Backendy s 32 ROP. Je to integrováno do jednoho Shader Enginu a GPU má k dispozici 2MB L2 cache. AMD uvádí, že na notebooku s tímto integrovaným GPU lze hrát hry v „kvalitě srovnatelné s herními konzolemi“.
Grafika používá architekturu RDNA 3.5, která není úplně nová, ale obsahuje dílčí zlepšení proti RDNA 3 použité v předchozích generacích. RDNA 3.5 má zejména dosahovat lepší energetické efektivity. AMD tvrdí, že se díky tomu podařilo dostat 1024 shaderů (o třetinu víc) do stejného „rozpočtu“ spotřeby, jakou v předchozí generaci procesorů mělo jádro se 768 shadery (12 CU) architektury RDNA 3.
Maximální takt grafiky je přitom zhruba stejný, 2900 MHz, a GPU při něm podává teoretický výkon přesahující 11 TFLOPS. Podle AMD má toto GPU zhruba o 30 % lepší výkon a valné většiny toho je dosaženo právě přidáním jednotek navíc.
Architektonická zlepšení, účinnější komprese
Vedle lepší efektivity má RDNA 3.5 i určitá architektonická zlepšení, která vylepšují schopnosti GPU. Samplování textur má zdvojnásobený výkon a akceleruje použití point-samplingu. Výstup z texturovacích jednotek teď může sdílet více ALU jednotek. Dále jednotky ROP dostaly nějaké optimalizace, které zlepšují lokalitu dat, což pak může zlepšit efektivitu při dalších operacích, jelikož se omezí přístupy do paměti.
Výpočetní jednotky mají vylepšenou schopnost dual-issue, kdy lze 2× za cyklus provést některé operace, které u RDNA 3 šly jen jednou za cyklus (mělo by jít o nějaké komparace a interpolace). Skalární ALU v rámci CU dostala navíc podporu floating-point operací a shadery také mají podporu pro eliminaci zápisů do pracovních registrů v některých případech.
Výkon grafiky nepřímo podporuje propustnost pamětí LPDDR5(X). Procesory Ryzen AI 300 dovolují použít paměti LPDDR5X s efektivní rychlostí až 7500 MHz, což s šířkou pamětí 128 bitů dodává propustnost až 120 GB/s (paměti DDR5 jsou podporované s rychlostí 5600 MHz).
Ovšem reálný výkon může být o něco lepší, protože grafika RDNA 3.5 má zároveň efektivnější kompresi dat ukládaných a čtených z pamětí, takže z určité fyzické propustnosti dokáže vytěžit o něco víc efektivní datové propustnosti. Toto zlepšení komprese spočítá v tom, že GPU umí častěji použít pro kompresi větší bloky dat, u nich je kompresní poměr zlepšen proti menším blokům.
Podpora 8K monitorů, DisplayPort 2.1 UHBR 10
Tato integrovaná grafika podporuje připojení displejů s rozlišením až 8K (7680 × 4320 bodů) při 60 Hz nebo 4K (3840 × 2160) při až 240 Hz. V rozlišení 8K umí Strix také dekódovat i komprimovat video do formátů AV1 a HEVC (H.265). Obrazové výstupy jsou podporovány HDMI 2.1 a DisplayPort 2.1 s rychlostí UHBR 10 (to je nejpomalejší rychlostní třída DisplayPortu 2.1, avšak stále má o 50 % vyšší propustnost než DisplayPort 1.4a). Celkem integrovaná grafika podporuje připojení až čtyř monitorů či obrazovek najednou.
NPU: XDNA 2 jednotka pro AI
Jak už nové jméno procesorů avizuje, jeden z důrazů Ryzenu AI 300 je akcelerace umělé inteligence, kterou poskytuje jednotka NPU pro potřeby Copilot+ PC, ale eventuálně i pro další účely. MS vyžaduje NPU s výkonem alespoň 40 TOPS, což Strix Point splňuje. Dokonce by měl mít momentálně nejvýkonnější NPU mezi svými konkurenty, alespoň podle oficiálně udávaného výkonu. Má specifikováno 50–55 TOPS při výpočtech s přesností INT8.
NPU ve Strixu používá novou architekturu XDNA 2 s 32 dlaždicemi (2× víc než u předchozí generace), která pochází z technologií Xilinxu. Jednotka NPU má o 60 % integrovanou pracovní paměť a také dvakrát lepší výkon při běhu více AI aplikací současně, dokáže pracovat s dvojnásobkem současných spatial streams. Podporuje také tzv. funkci 50% sparsity, která v podstatě zdvojnásobuje využitelný výkon eliminací části koeficientů (jde o optimalizaci, kterou používá i Nvidia od generace GPU Ampere). Také byla proti předchozí generaci NPU v Ryzenech 7040 a 8040 vylepšena podpora pro použití komplexnějších funkcí jako tanh a exp v rámci NPU.
Potenciálně hodně užitečná by měla být podpora pro výpočty s formátem Block FP16, které by měly podávat výkon jako operace INT8, ale s přesností jako FP16, která by normálně měla 2× horší výkon (tedy 25–27,5 TFLOPS u jednotky NPU ve Strixu), zatímco Block FP16 má zachovaný výkon 50–55 TFLOPS. Použití Block FP16 by podle AMD mělo v aplikacích umělé inteligence dosahovat kvalitnějších výsledků bez nutnosti kvantizace, ale se stejným výkonem jako INT8 u jiných NPU.
Proti předchozí generaci by NPU na bázi XDNA 2 měla mít dvakrát lepší energetickou efektivitu. AMD také uvádí, že lze používat jen část jejích bloků a zbytek uspat, což zlepšuje energetickou efektivitu. Díky tomu lze používat některé AI modely i na pozadí, aniž by se tím tak výrazně zhoršila výdrž baterie.
Modely
AMD původně oznámilo jenom dvě konfigurace, s nimiž budou tyto procesory v noteboocích dostupné, později ale začaly prosakovat informace ještě o třetí, která je teď už také oficiálně potvrzená. Top modely nabídky jsou Ryzen AI 9 HX 370 a nový Ryzen AI 9 HX 375.
Tyto modely mají plně aktivní konfiguraci s 12 jádry a 24 vlákny, 24 MB L3 cache. Frekvence je 2,0 GHz v základu, zatímco jádra Zen 5 jsou schopná v jednovláknových aplikacích dosáhnout taktu až 5,1 GHz. Jednovláknový výkon bude tudíž nižší než u desktopových modelů, které jdou až na 5,7 GHz.
Integrovaná grafika se jmenuje Radeon 890M a má aktivních všech 16 CU / 1024 shaderů, s frekvencí 2900 MHz. TDP procesorů je nastavitelné v rozsahu 15 až 54 W, zahrnuje tedy dříve samostatné segmenty U (15 W) i H (45 W) a segment P (28 W) u Intelu. Výchozí hodnota TDP je 28 W, ale každý výrobce notebooku si bude moci zvolit, kam procesor nastaví.
Mezi oběma modely není rozdíl v konfiguraci CPU nebo GPU, takže nově přidaný Ryzen AI 9 HX 375 není striktně vzato vyšším modelem v tomto ohledu. Čím se liší, je výkon jednotky NPU. Zatímco ostatní procesory mají NPU s výkonem 50 TOPS, u Ryzenu AI 9 HX 375 jsou její frekvence zvýšené a díky tomu poskytuje výkon až 55 TOPS. Aplikace umělé inteligence akcelerované na této jednotce tak budou různé požadavky zpracovávat o něco rychleji. Po stránce hrubého výkonu je tato NPU zatím z procesorů pro Copilot+ PC nejrychlejší – Qualcomm poskytuje 45 TOPS, procesory Intelu Lunar Lake pak od 40 do 48 TOPS dle modelu.
Levnější a zatím poslední model se jmenuje Ryzen AI 9 365. Má jen 10 jader a 20 vláken, přičemž ořezána byla menší jádra Zen 5c, zatímco velká jádra mají zachovaný plný počet, takže konfigurace je 4+6. Základní takt jader CPU je 2,0 GHz, maximální boost 5,0 GHz.
Cache je zachovaná plná 24MB, ale grafika (označená Radeon 880M) je ořezaná jen na 12 CU, má tedy 768 shaderů. Frekvenci má ale stejných 2900 MHz. Také tento procesor má výchozí TDP 28 W, ale s možností nastavení od 15 do 54 W. Výkon NPU je u tohoto modelu také 50 TOPS.
Na internet prosákly ještě informace o tom, že by se mohl objevit také ještě o něco osekanější (a levnější) model Ryzen AI 7 360 s osmi jádry. Ten zatím není potvrzený, uvedený možná bude až později, pokud existuje.
Vydání na trh 28. 7.
Dnešním dnem by tyto procesory a spolu s tím i notebooky měly být oficiálně vydány, včetně recenzí. Jdou tedy na trh dříve než desktopová verze. Tu postihlo mírné zpoždění a vyjde 8. a 15. 8. – nejprve modely Ryzen 5 a Ryzen 7 a až po týdnu Ryzeny 9.
Zdroj: AMD, ComputerBase