Instinct MI300X: AMD tvrdí, že má nejlepší akcelerátor pro generativní umělou inteligenci

15. 6. 2023

Výpočetní APU Instinct MI300A je modulární. AMD z něj udělalo také verzi se samými GPU čiplety a více než 300 CU. Mohl by vzniknout i procesor s pamětí HBM3.

AMD mělo včera velké odhalování produktů hlavně pro servery a podobné seriózní neherní účely. Už jsme psali o cloudových procesorech Epyc Bergamo, ve kterých přišla na trh architektura Zen 4c. Vedle nich AMD odhalilo také své zatím nejpokročilejší GPU a akcelerátor AI: Instinct MI300X. Ten je založený na architektuře CDNA 3 a jde o konkurenci k HPC GPU Intelu (Ponte Vecchio), ale také proti výpočetním GPU Nvidie.

Asi si vzpomenete, že na začátku roku jsme tu měli článek o Instinctu MI300, což je čipletový akcelerátor spojující výpočetní jednotky GPU s jádry AMD Zen 4. Nyní oznámený Instinct MI300X je odvozený design, který ukazuje pozoruhodnou pružnost návrhu. APU verze MI300 (ta se přesněji jmenuje Instinct MI300A) konkuruje kombinací CPU a GPU konceptu XPU od Intelu (ten sám ale jeho realizaci odložil na pozdější generaci). Ale nyní uváděný Instinct MI300X je čisté GPU.

Základem všech MI300 je dlaždicový design se čtyřmi 6nm interposery (respektive základovými dlaždicemi) vedle sebe, které tvoří čtvrtinu celého procesoru s dvěma připojenými pouzdry paměti HBM3. APU verze MI300 má tři z těchto kvadrantů osazeny 5nm výpočetními čiplety s jednotkami GPU architektury CDNA 3 (na každém kvadrantu jsou tyto čiplety dva, i tyto segmenty tedy používají čipletovou skladbu).

AMD Instinct MI300X

Autor: AMD

Na posledním jsou místo toho – u verze MI300A – jádra CPU. AMD nyní odhalilo, že jde o tři CPU čiplety (24 jader, 48 vláken) používané v Ryzenech 7000 a Epycích 9004. Jejich design je z velké části nezměněný, ale bylo nutné upravit spodní měděné vrstvy vodičů, aby měly správný rozměr kontaktních plošek pro osazení na interposer. Byl tedy nutný separátní tapeout této verze čipletu, ale náklady na vývoj nebyly tak velké jako u nového procesoru.

AMD Instinct MI300X

Autor: AMD

Nový akcelerátor MI300X dělá jednoduše to, že eliminuje tuto část s CPU čiplety a místo ní je i na uvolněnou pozici osazena další dvojice GPU čipletů. Výsledkem je komplet, který údajně obsahuje 153 miliard tranzistorů. Jeden GPU čiplet by měl mít 40 výpočetních jednotek (CU) z nichž je aktivních 38, zbylé dvě jsou do rezervy kvůli zachování výtěžnosti (lze použít i křemík s defektem). Celý akcelerátor MI300X by tedy měl mít 304 CU.

Jako paměť slouží akcelerátoru MI300X celkem osm pouzder paměti HBM3. Pro každý jsou použitá 24GB pouzdra s 12 vrstvami DRAM, takže celý akcelerátor má 192 GB paměti HBM3. Její propustnost je podle AMD 5,2 TB/s. V každém ze čtyř podkladových základních čipletů by měla být integrovaná také 64MB „MALL“ cache, které tedy GPU obsahuje dohromady 256 MB.

Celek bude mít velmi vysokou spotřebu, podle AMD má TDP být 750 W (čímž se ale nevymyká proti konkurenci, Nvidia H100 v takovémto mezaninovém formátu má TDP 700 W).

AMD Instinct MI300X se bude osazovat v počtu osmi kusů k dvěma procesorům Epyc

Autor: AMD

Instinct MI300X je podle AMD nejpokročilejším akcelerátorem pro trénování a inferenci generativní AI a velké jazykové modely – AMD uvádí, že modely jako Falcon-40 a Falcon-40B mohou díky 192GB paměti běžet na jediném GPU. V této schopnosti by akcelerátor mohl být napřed před Nvidií. Ta sice na jaře oznámila akcelerátor Nvidia H100 NVL se 188GB pamětí, to je ale ve skutečnosti dvojice běžných akcelerátorů H100 s 96GB pamětí, propojených NVLinkem. Řešení AMD sice pořád není jedním monolitickým křemíkem, ale propojení mezi čiplety je více těsné a pravděpodobně výkonnější, takže MI300X by měl být monolitickému GPU výrazně blíže než Nvidia H100 NVL.

Je tak možné provozovat větší AI modely. Toto by mohla být pro akcelerátor AMD vlastnost, dávající mu unikátní výhodu proti GPU od Nvidie, které mají na své straně silnější softwarový ekosystém a setrvačnost (pravděpodobně také pokročilejší samotné výpočetní jednotky).

Verze MI300A díky vlastním jádrům CPU funguje jako samostatná jednotka (takto bude používáno v superpočítačích). Instinct MI300X sice používá stejný socket LGA a chladič, ale v serverech či výpočetních nodech se bude připojovat k hostitelskému procesoru. Standardně by to měla být konfigurace se dvěma procesory Epyc 9004 a osmi GPU Instinct MI300X. Vše bude propojeno koherentně pomocí logiky Infinity Fabric, která má celkovou propustnost až 896 GB/s.

Vzorek procesoru AMD Instinct MI300A

Autor: ServeTheHome

Hlavními zákazníky, o které se AMD uchází, jsou zřejmě velké hyperscale společnosti (což sedí k tomu, že jde o akcelerátor v mezaninovém provedení Open Accelerator Module, takže je vyžadována speciální deska). Vzorky Instinctu MI300X mají těmto zákazníkům být dodávány v třetím kvartálu roku. Naproti tomu vzorky APU verze Instinct MI300A již klienti mají v rukou. Ta bude používána hlavně v HPC a superpočítačích – například americkém exascale systému El Capitan.

Epycy s HBM3?

Mimochodem – tento modulární design údajně také umožňuje nahradit naopak dlaždice s GPU čiplety dlaždicemi s CPU čiplety, které se vejdou tři na každý kvadrant. Tím vznikne procesor, který má 12 CPU čipletů a 96 jader, což je stejné jako u standardního Epyců 9004. Rozdíl je ale v tom, že výsledek používá jiný socket a místo pamětí DDR5 má stejné paměti HBM3 s vysokou propustností jako MI300A a MI300X. Jejich kapacita by mohla být 128 GB nebo 192 GB.

Zatím ovšem není jasné, zda o takovouto formu procesoru Epyc s pamětí HBM3 bude na trhu zájem. Je možné, že tato varianta (označovat by se zřejmě měla MI300C) nakonec nebude komerčně vyráběná.

Zdroj: SemiAnalysis, AMD, AnandTech