Loni v listopadu odhalilo AMD výpočetní akcelerátor Instinct MI100 pro vědecké výpočty a umělou inteligenci, který pohání GPU Arcturus, první to čip s architekturou AMD CDNA. Vypadá to, že druhá generace s architekturou CDNA 2, pojmenovaná Aldebaran, už je také blízko a zřejmě bude odhalená ještě letos. V létě unikly informace o tom, že jde o vícečipové řešení, teď už máme i podrobné specifikace včetně taktů a TFLOPS, podle nichž to bude hodně výkonná mašina.
AMD Instinct MI250X: Aldebaran v provedení OAM
O těchto výkonných výpočetních procesorech teď přinesl informace leaker s přezdívkou ExecutableFix, řádící na Twitteru. Ten před odhalením jako první avizoval odhalení technologie 3D V-Cache, takže evidentně má informované zdroje. Nyní na Twitteru prozradil to, jak budou vypadat akcelerátory Aldebaran, které jsou následníky čipu Arcturus. Doteď se o nich mluvilo jako o „Instinctu MI200“, ale nakonec bude označení jiné.
Podle ExecutableFix AMD chystá dvě verze GPU Aldebaran – Instinct MI250 a Instinct MI250X. (Zdá se, že čísla již nekorespondují s výkonem v TFLOPS jako dříve.) Model MI250 by patrně mohl být v klasické koncepci karty do slotu PCI Express ×16 se spotřebou 300 W a asi bude mít z obou nižší výkon.
Druhá verze MI250X má totiž speciální provedení, podobně jako akcelerátory Nvidia A100 (GPU Ampere GA100) s mezaninovým formátem SXM4, a také zvýšenou spotřebu 500 W, což je právě umožněno oproštěním se od formátu karty (lze použít vysoký účinnější chladič jako na CPU nebo vodní bloky, například).
Na rozdíl od Nvidie zdá se AMD nevyvinulo čistě vlastní proprietární formát, ale použije provedení OAM (Open Accelerator Module) vyvinuté v rámci Open Compute Projectu; toto fyzické provedení by asi měly používat i další firmy. Výsledek asi ale může být funkčně dost podobný mezaninovým akcelerátorům Nvidie. Je pravděpodobné, že použití tohoto formátu dovolí propojit GPU k procesorům Epyc přímo koherentním spojením Infinity Fabric (což by tedy zase byla analogie NVLinku Nvidie) místo jen obyčejného PCI Expressu.
Akcelerátor MI250X v provedení OAM má údajně 110 jednotek CU, nebo dost možná 2×110 jednotek CU, protože z předchozích úniků víme, že by mělo jít o MCM GPU složené ze dvou čipů či čipletů. Je proto možné, že oněch 110 jednotek platí pro jeden čip, takže celý akcelerátor MI250X by jich měl 220. To by znamenalo 14 080 „shaderů“, ovšem jde o architekturu CDNA2, která asi již grafické výpočty ani nepodporuje. Je možné, že celé GPU má ve skutečnosti fyzicky 2×128 CU (16 384 shaderů), část je ale vždy vypnutá pro zvýšení výtěžnosti výroby.
Neznáme základní takty, ale MI250X má údajně takt boostu 1,7 GHz, což je znatelně víc, než kam dosáhl Arcturus, jenž měl boost 1502 MHz. Nejde o 5nm čip, jak se možná předpokládalo (my jsme si to také mysleli), ExecutableFix uvádí, že místo toho jde pořád o GPU vyráběné 7nm procesem TSMC.
https://twitter.com/ExecuFix/status/1451979331362754563
S touto frekvencí má Instinct MI250X údajně mít výkon až 47,9 TFLOPS, což by asi mohl být výkon pro výpočty v standardní přesnodti FP32. Výkon v dvojité přesnosti FP64, používané pro vědecké výpočty, by pak měl být poloviční proti FP32, což by znamenalo 23,95 TFLOPS. S těmito hodnotami by Instinct MI250X byl takřka přesně dvakrát rychlejší, než Instinct MI100. Výpočetní výkon v FP64 by byl téměř 2,5× vyšší, než u akcelerátoru Nvidia A100 s 9,7 TFLOPS.
https://twitter.com/ExecuFix/status/1451906682968289287
CDNA2 umí BFloat16 s dvakrát lepším výkonem
Výkon ve výpočtech pro umělou inteligenci, pro což Arcturus zavedl specializované jednotky „Matrix Core“ (analogické k Tensor jádrům Nvidie), ba asi také měl stoupnout dvakrát proti čipu Arcturus. Ten dosahoval přes 184,6 TFLOPS ve výpočtech s poloviční přesností FP16, používanou pro trénování neuronových sítí, ale jen polovičních 92,3 TFLOPS ve výpočtech s formátem BFloat16.
Instinct MI250X má mít výkon 383 TFLOPS ve výpočtech FP16, tedy zhruba ten dvojnásobek a něco. Ale Aldebaran a jeho architektura CDNA 2 má zřejmě výhodu proti Arcturu a jeho CDNA v tom, že výkon v BFloat16 už nebude poloviční, ale stejný – také 383 TFLOPS. Takže pokud musí trénování probíhat s tímto datovým formátem, bude akcelerátor mít čtyřnásobný výkon.
128 GB paměti HBM2e
Také paměť bude hodně velká. Zatímco MI100 mělo jen poměrně skromných 32 GB na 4096bitové sběrnici (šlo o HBM2e s propustností 1,23 GB/s), akcelerátor Instinct MI250X má prý rovnou 128 GB paměti HBM2e. Respektive je to asi 64 GB pro každý ze dvou čipů v MCM pouzdru. Je to nejspíš dosaženo použitím čtyř 16GB pouzder. Jakou mají paměti frekvenci, bohužel nevíme. U MI100 to bylo jen 2,4 GHz efektivně, zde by AMD asi mohlo použít až 3,2GHz frekvenci, což by dávalo propustnost asi 1,6 TB/s. Hynix má i lehce nestandardní 3,6GHz čipy, ale těžko říct, jestli mohou být použité.
Galerie: Odhalení výpočetní karty AMD Instinct MI100 s architekturou CDNA
Pohon exascale superpočítačů?
Jak už bylo řečeno, tyto akcelerátory používají architekturu CDNA 2, nikoliv herní grafickou architekturu RDNA 2/3. Už CDNA neobsahovala žádné specializované jednotky pro grafické operace jako jsou ROP, TMU či geometrie. Zde to asi bude stejné, takže ani kdyby AMD chtělo, nebude možné tato GPU nějak sekundárně využít pro herní grafické karty. Jejich odbytiště bude čistě jenom v serverech a sektoru HPC.
Tip: Nejrychlejší superpočítač Frontier budou pohánět procesory AMD Epyc a Radeony
Již dva roky zpátky na jaře roku 2019 bylo oznámeno, že AMD vybuduje pro americké instituce Exascale superpočítač (mohl by dokonce po postavení být nejvýkonnější na světě) nazvaný Frontier. V kteérm budou použité procesory AMD Epyc a akcelerátory Instinct. Frontier má jít do provozu v roce 2022, takže je pravděpodobné, že mu jeho exascale výpočetní výkon (tj. v řádu EFLOPS – tisíc PFLOPS a víc) budou dodávat právě tyto akcelerátory. Buď přímo Instinct MI250X, nebo nějaká jeho neveřejná speciálně uzpůsobená verze.