Minulý týden přinesl CES 2023 pěknou hromádku různých novinek od Intelu, Nvidie a AMD. Ještě k jedné novince odhalené na tomto veletrhu od posledního jmenovaného soutěžícího jsme se nedostali a stojí za to to napravit. AMD odhalilo next-gen výpočetní akcelerátor, nebo vlastně APU. Procesor AMD Instinct MI300 navazuje na výpočetní GPU architektur CDNA a CDNA 2, ale poprvé integruje akcelerátor i CPU do jednoho čipletového chroustadla čísel.
Podle AMD je Instinct MI300 prvním HPC procesorem, spojujícím jádra CPU, GPU a také paměť do jednoho integrovaného celku. Spojení má přinést zlepšení výkonu a energetické efektivity, ale také výrazně usnadnit programování proti situaci, kdy je GPU externí jednotkou s vlastní pamětí. Je třeba říct, že něco podobného (pod označením XPU) chystá také Intel, takže půjde o to, komu se podaří produkt jako prvnímu dokončit a dostat do praktického použití.
Instinct MI300 je založený na výpočetní architektuře CDNA 3 (půjde tedy o novou generaci proti CDNA 2 použité v Instinctu MI200, na němž je založený exascale superpočítač Frontier). CDNA 3 má být údajně optimalizovaný jak pro HPC výpočty (tedy numerické, vědecké výpočty, fyzikální simulace), tak pro akceleraci AI.
Současně je v procesoru integrováno 24 jader Zen 4 (s 48 vlákny). Procesor MI300 je čipletový, takže tyto komponenty jsou oddělené, zřejmě jsou použité stejné 5nm CPU čiplety jako v Ryzenech 7000 a Epycích 9004, zde tedy v počtu tří kusů.
Celé APU pak má k dispozici 128 GB paměti HBM3, která bude sloužit jako operační paměť i jako paměť GPU. Vzhledem ke kapacitě, ale také podle fotek vzorku, je zřejmě použito rozhraní o celkové šířce 8192 bitů (osm pouzder HBM3). Jak vysoká bude propustnost, by záleželo na frekvenci pamětí. Hynix nedávno prezentoval HBM3 s efektivním rychlostí až 6,4 Gb/s na 1 bit sběrnice, což by tady dosáhlo celkové propustnosti 6,4 TB/s. Ale je pravděpodobné, že bude osazena o něco pomalejší paměť (například Nvidia H100 zřejmě používá HBM3 na efektivní rychlosti 5,36 Gb/s).
Heterogenní slepenec s 3D čiplety
Celkově má Instinct MI300 v různých čipletech obsahovat přes 146 miliard tranzistorů (toto je nejspíš počítáno bez HBM3). Čiplety používají 6nm a 5nm proces, ten bude kromě jader Zen 4 asi použitý také pro GPU čiplety. Má být použité pokročilé pouzdření s 3D propojením čipletů. GPU a CPU čiplety budou osazené ve vrstvě nad základním propojovacím křemíkem, který by měl plnit funkci IO čipletu a propojení všech 5nm výpočetních čipletů a pamětí HBM3.
Podle AMD je použito devět 5nm čipletů, což pravděpodobně znamená tři CPU čiplety Zen 4, a tudíž šest čipletů s výpočetními jednotkami CDNA 3. Pod nimi by měly být čtyři 6nm čiplety, které tvoří základní IO čiplet a také asi suplují roli interposeru či křemíkových můstků (které jsou vyžadované pamětmi HBM3). Není zmíněno, zda CPU čiplety a případně GPU čiplety budou mít i 3D V-Cache, jakou znáte z procesorů Ryzen „X3D“, ale ta by asi mohlo být přítomná i v rámci „podložkových“ čipletů.
https://twitter.com/aschilling/status/1611013309280534529
Pokud se podíváte na fotku „čipu“ (čipletokombinátu?) MI300, která byla na CES 2023 pořízená, jsou vidět jakoby čtyři velké čipy uprostřed, které ale ve skutečnosti asi tvoří víc čipletů. Po okrajích je pak osm čtvercových pouzder HBM3. Malé kousky křemíku mezi nimi jsou pravděpodobně jen neaktivní balast sloužící pro vyrovnání výšky, v podstatě jako výztuž. Z tohoto uspořádání by se nabízelo, že tři ze čtyř „kvadrantů“ uprostřed jsou tvořené dvojicemi GPU čipletů, k nimž vždy přísluší dvě pouzdra HBM3.
Čtvrtý kvadrant pak tvoří tři CPU čiplety a ty také mají dvě pouzdra HBM3. Mezi těmito kvadranty pak musí nějakou propojovací logikou probíhat komunikace. Možná tedy, že logicky je MI300 tvořené jedním 24jádrovým procesorem a třemi nebo šesti GPU.
Projektovaný výkon
MI300 má údajně mít 8× vyšší výkon v AI výpočtech proti akcelerátoru MI250X nynější generace. Jde o hodnotu v TFLOPS, ovšem bavíme se o výpočtech v FP8 a za použití techniky structure sparsity ve srovnání s výpočty v FP16 na akcelerátoru MI200. Energetická efektivita, tedy TFLOPS na jeden watt spotřeby, má narůst víc než pětkrát.
AMD uvádí, že toto výpočetní HPC APU bude vydáno v druhé polovině letošního roku (H2 2023). Firma už podobné koncepty představovala dávno v minulosti, aniž by je skutečně uvedla do reality. Šlo tedy o jakousi dlouho sledovanou vizi, pro niž ale ne a ne dozrát čas.
Tentokrát už ale nejde o koncept, ale o produkt, který je ve stádiu dokončování. V tuto chvíli už existují vzorky Instinctu MI300 běžící v laboratořích a brzy by vzorky měly být dostupné i partnerům. První superpočítač (El Capitan v USA s plánovaným výkonem 2 EFLOPS) na bázi tohoto řešení by zřejmě mohl běžet ještě před koncem letošního roku.
Zdroje: AMD (1, 2), The Next Platform