Indie chystá vlastní vysoce výkonné procesory Aum. Použijí architekturu ARM a instrukce SVE

22. 5. 2023

Sdílet

 Autor: ORNL
Nejen Čína nebo Rusko, ale také Indie se snaží o technologickou soběstačnost. Země teď vyvíjí vlastní procesory ARM pro ty nejvýkonnější aplikace.

Vypadá to, že nastala sezóna procesorů ARM. Minulý týden byla oznámená nová generace procesorů Ampere pro cloudové servery (AmpereOne s až 192 jádry), hodně výkonného ARMa (česky Pažouta) ale chystají také v Indii. Tato země totiž na instrukční sadě ARM chce založit vlastní procesory pro superpočítače, takže by mohlo vzniknout další podobně výkonné CPU, jaké používá Japonsko v superpočítači RIKEN Fugaku.

Tento procesor jmenující se Aum oznámila indická instituce C-DAC (Center of Development of Advanced Computing). Má jít o první vysoce výkonný procesor pro potřeby „HPC“ sektoru, čímž se míní zejména superpočítače, ale i s určitým možným přesahem do výpočetních serverů a pracovních stanic.

Aum je další z procesorů, které stojí na architektuře Neoverse od ARMu. Tato licenční jádra (a s nimi spojená IP zajišťující konektivitu, cache a propojovací logiku) umožnila vyvinout poměrně kompetentní serverový procesor mnoha subjektům, které samy podobné knowhow neměly. Například právě Amazonu, který díky Neoverse má oceňovanou linii vlastních procesorů Graviton. C-DAC Aum je stejný případ.

Čiplety a 96 jader ARM Neoverse V1

Procesor je založený na architektuře Neoverse V1 (její dřívější kódové označení bylo Zeus) s instrukcemi SVE, která patří do výkonnější linie jader oproti efektivnější linii Neoverse N1/N2/N3 určené pro cloudové serverové služby. Aum obsahuje 96 těchto jader a je vyráběn na 5nm výrobním procesu TSMC, tedy podobně jako Amazon Graviton3, jenž je také založený na Neoverse V1. Každé jádro má 64kB datovou a 64kB instrukční L1 cache a 1MB L2 cache, dále pak CPU má společnou 96MB L3 cache či System-Level cache. Propojení jader je typu mesh.

Více: ARM odhalil procesory Neoverse V1 a N2. S IPC vyšším o 50 % chce porazit serverové x86

C-DAC procesor Aum navrhuje jako čipletový, složený ze dvou propojených kusů 5nm křemíku. Každá z obou polovin obsahuje 48 jader Neoverse V1 a svůj paměťový řadič se čtyřmi (respektive osmi 32bitovými) kanály DDR5-5200 (takže celek poskytuje osmikanálové paměti DDR5 s šířkou 512 bitů a propustností 332,8 GB/s).

Procesor C DAC Aum Procesor C-DAC Aum (zdroj: C-DAC)

Vedle této hlavní paměti RAM ale také procesor bude používat paměť HBM3 s efektivní frekvencí 5,6 GHz či 6,4 GHz. Každý z čipletů má dva 1024bitové kanály, takže celý procesor má 4096bitovou šířku těchto pamětí, které budou mít kapacitu 64 GB a propustnost 2,87 TB/s (při efektivní frekvenci 5,6 GHz). Paměť HBM3 je pak možné zvětšit podle potřeby také na 96 GB. Procesor bude mít na obou čipletech také řadič PCI Express 5.0 – celý procesor poskytuje 128 linek, z nichž ale v 2S sestavách bude polovina použitá pro propojení obou socketů. Zbylých 64 pak podporuje CXL. Jak 1S, tak 2S sestava by tedy poskytovala 128 linek PCIe 5.0.

Schéma procesoru C DAC Aum 2 Schéma procesoru C-DAC Aum (zdroj: C-DAC)

Jak propojení čipletů s HBM3, tak propojení mezi čiplety bude používat křemíkový interposer osazený pod čiplety. To procesor prodraží. Zdá se, že oba čiplety by mohly být samostatně funkční, takže by z nich šlo tvořit levnější 48jádrové procesory, ale zřejmě by pořád musely mít (menší) interposer kvůli tomu, křemík bude mít mnohem menší kontakty, než jaké je možné použít s běžným substrátem.

Schéma procesoru C DAC Aum Schéma procesoru C-DAC Aum (zdroj: C-DAC)

Procesor má na jádrech Neoverse V1 dosahovat taktu až 3,0 GHz v základu a až 3,5 GHz v boostu (zatím jsou to asi jen předpokládané frekvence) při TDP okolo 300 W (jinde je uváděno 280–320 W). Výkon v SIMD výpočtech má dosáhnout až 4,6 TFLOPS na jeden socket, přičemž je počítáno s výrobou 2S systémů, které by pak poháněly superpočítače.

Možná, že C-DAC chce stejně jako Japonsko v superpočítači Fugaku s ARM procesory Fujitsu A64FX používat i HPC nody s numerickým výkonem realizovaným čistě procesory se SIMD jednotkami místo akcelerátorové architektury s GPU. To vede k vyšší spotřebě, ale výpočetní výkon je pak snáze využitelný a v reálných aplikacích se z hardwaru dostane větší procento teoretických „FLOPS“. Na druhou stranu procesory mají spoustu PCIe konektivity a s nody osazenými GPU se počítá také (mělo by jít o konfiguraci se dvěma procesory Aum a čtyřmi akcelerátory).

Srovnání Fujitsu A64FX a C DAC Aum Srovnání Fujitsu A64FX a C-DAC Aum (zdroj: C-DAC)

Aum by měl být vydán v roce 2024, nebo alespoň je to tak plánováno, ovšem samozřejmě může dojít ke zdržením. Smyslem celého projektu není ale jen vyvinout tyto konkrétní procesory. Projekt má být odrazovým můstkem pro další vývoj procesorů nejen pro superpočítače, ale i pro další trhy. Ideálně by tak Indie chtěla mít vlastní zdroj procesorů pro různé účely, který by zemi dodal nezávislost a také odolnost proti případným exportním omezením zahraničního hardwaru.

Sice je pravda, že jsou stále používaná licenční IP od ARMu, k nimž by Indie teoreticky mohla přístup ztratit, nicméně výroba již navrženého CPU by mohla i pak pokračovat. V dlouhodobějším horizontu je nejspíš v plánu přejít na vlastní návrh procesorových jader a možná také na odlišnou instrukční sadu (RISC-V), s čímž už by bylo možné zajistit úplnou nezávislost až na samotnou výrobu čipu.

ICTS24

Motivace programu Aum Motivace programu Aum (zdroj: C-DAC)

Výkonný lokální procesor na bázi architektury licencované od ARMu by mohl být používán také v Evropě, kde běží podobný projekt. Jde o procesor s kódovým označením Rhea, který vyvíjí SiPearl pro evropský program nezávislých superpočítačů. Také ten používá architekturu Neoverse V1 s pamětí HBM2E, ale bude mít jen 72 jader.

Srovnání C DAC Aum s obdobnými ARM procesory Srovnání C-DAC Aum s obdobnými ARM procesory (zdroj: C-DAC)

Zdroje: C-DAC, Tom's Hardware