Vlastnictví nejvýkonnějšího superpočítače je pro velmoci prestiž, ale i důležitý zdroj pro vědu a výzkum. Trůn drželo dva roky Japonsko se strojem Fugaku složeným z procesorů ARM od Fujitsu. Až teď byl Fugaku odsunut na druhou pozici a první místo opět získává USA. Je to díky superpočítači Frontier, který je složen ze procesorů i GPU od AMD a je také prvním tzv. „exascale“ superpočítačem – takovým, jehož výkon přesáhl 1000 PFLOPS.
Frontier je superpočítač amerického ústavu Oak Ridge National Laboratory (spadající pod Department of Energy), oznámený už od roku 2019. Tehdy šlo o po dlouhé době první takový velký projekt, ve kterém byl hardware AMD. Mezitím přišlo dost superpočítačů, běžících na procesorech AMD Epyc, zvlášť poté, co jako první podporovaly PCIe 4.0 a Intel proti nim v podstatě neměl konkurenci. Frontier ale používá od AMD také akcelerátory – je postavený na GPU AMD Instinct místo na akcelerátorech Nvidie.
Frontier je postaven firmou HPE (přesněji Cray, která se stala součástí HPE) a používá její architekturu HPE Cray EX235a s propojením Cray Slingshot-11. Jednotlivé instance běží na 64jádrových procesorech Epyc 3. generace s architekturou Zen 3 (Milan) a základním taktem 2,0 GHz. Není uvedeno přesné označení modelu, pravděpodobně totiž nejde o sériově vyráběný procesor (někde se uvádí modelové označení 7A53). Hovoří se o verzi procesoru „optimalizované pro HPC“, což by mělo znamenat, že podporuje externí propojení s GPU přes Infinity Fabric. GPU jsou s procesorem tedy spojena koherentně místo běžného PCIe 4.0 a mohou s ním sdílet paměťový prostor. Je také možné, že procesory mají osazenou i 3D V-Cache, která má právě pro HPC být hodně užitečná.
Většinu hrubého výpočetního výkonu tohoto systému budou, jak je v poslední době obvyklé, dodávat akcelerátory typu GPU. Použitý je Instinct MI250X s architekturou CDNA 2, který AMD oznámilo loni. Jde vlastně o kombinaci dvou propojených 6nm GPU v jednom pouzdře, která obsahuje celkem 14 080 stream procesorů/shaderů v 2× 110 blocích CU. Ke každému z čipům je připojeno 64 GB paměti HBM2e s propustností 1,6 GB/s (4096bitová sběrnice). Celková propustnost pamětí v součtu je tedy 3,2 TB/s a kapacita 128 GB.
Zajímavé je, že v superpočítačích mohou být tato GPU přímo propojená (například 200Gb/s Ethernetem) s GPU v dalších uzlech klastru, místo aby tato komunikace chodila přes jejich hostitelská CPU. Přímo ke GPU také mohou být připojena lokální úložiště SSD.
Více: AMD Instinct MI200 pro superpočítače a AI: 6nm čipletová GPU jsou 5× rychlejší než Ampere
Podle nyní nově vydaného žebříčku TOP500 má Frontier aktuálně celkem 8 730 112, ale toto číslo asi neznamená počet jader CPU (vycházelo by to na 136 408 procesorů, každé s 64 jádry), ale spíše součet jader CPU a bloků CU v akcelerátorech. Frontier má totiž podle údajů RNL mít „přes 9400“ uzlů, které jsou pravděpodobně tvořené jedním procesorem a čtyřmi GPU (čtyřikrát 220 a 64 dává 948 „jader“, některé uzly sloužící pro obsluhu nebo úložiště asi jsou bez GPU, nebo jich mají méně).
Spotřeba je nižší než u předchozího krále. Pro Frontier se uvádí 21,1 megawattu naměřených při běhu benchmarku Linpacku, zatímco Fugaku má mít příkon 29,899 megawattu. Maximální spotřeba je však vyšší.
Frontier je zatím údajně ve fázi, kdy výkon není úplně vyladěný, možná ještě není tam, kde byl očekáván. Nebo se aspoň doufá, že by ještě mohl dalšími optimalizacemi kompilátorů a nástrojů stoupnout. Nicméně už se mu podařilo překonat hranici výkonu 1 exaFLOPS ve výpočetních benchmarku Linpack, kterým se výkon těchto strojů měří pro potřeby žebříčku TOP500, čímž se stává oním prvním „exascale“ superpočítačem, tedy strojem s výkonem počítaným v exaFLOPS (1000 PFLOPS, 1 000 000 TFLOPS).
Během 24hodinového benchmarku byl dosažen výkon 1102 PFLOPS (1,1 EFLOPS). Teoretický výpočetní výkon hardwaru je až 2 EFLOPS, nicméně při měření Linpackem vždy vychází nižší číslo.
Pro Fugaku se udává výkon 442 PFLOPS, nový americký systém je tedy víc než dvakrát výkonnější. Je ale třeba pamatovat na to, že výkon Fugaku by měl být pro mnoho úloh snáze využitelný, jelikož nespočívá ve výkonu specializovaných akcelerátorů, ale přímo v jádru CPU se širokými SIMD jednotkami a silnou propojovací logikou (nazvanou Tofu interconnect D).
Menší verze jsou i v EU
Nový žebříček TOP500 má na předních místech ještě další novinky. Zejména nový evropský superpočítač LUMI, jenž je v rámci iniciativy EuroHPC osazen v centru CSC ve finském Kajaani. LUMI je založený na stejné architektuře jako Frontier, jde tedy o takovou jeho menší verzi.
Opět tedy jde o kabinety HPE Cray EX235a, ony speciálně optimalizované procesory AMD Epyc s 64 jádry Zen 3 s 2,0GHz základním taktem a akcelerátory AMD Instinct MI250X. Nicméně instalováno je „jen“ 1 110 144 jader (při 64 + 4× 220 „jádrech“ pro jeden uzel by to bylo 1176 uzlů). Spotřeba tohoto systému se uvádí 2,946 megawattu.
Tento superpočítač se umístil na třetím místě za Fugaku s naměřeným výkonem 151,9 PFLOPS. Odsunul na čtvrtou a pátou pozici předchozí nejvýkonnější superpočítače USA Summit (148,6 PFLOPS) a Sierra (94,64 PFLOPS) z roku 2019 (oba běží na procesorech IBM Power9 a GPU Nvidia Tesla V100).
Na šestém místě je čínský systém Sunway TaihuLight (93,01 PFLOPS) s procesory ShenWei SW26010, což je vlastní čínský projekt. Tento počítač byl dle žebříčku TOP500 nejrychlejší na světě mezi lety 2016 a 2019.
V žebříčku TOP500 je jinak stejná architektura HPE Cray EX235a s kombinací AMD Epyc a Instinct MI250X jako ve Frontieru a LUMI ještě na desátém místě, které má také nový superpočítač Adastra v centru GENCI-CINES ve Francii.
Tento systém je opět menší instalací, uvádí se pro něj 319 072 jader (338 uzlů?) a výkon 46,1 PFLOPS. Tento superpočítač se vejde pod jeden megawatt, spotřeba při tomto výkonu měla být 921,48 kW. Adastra je druhý nejvýkonnější evropský superpočítač.
HPE a zprostředkovaně AMD se tedy se Zenem 3, MI250X a touto architekturou povedlo získat slušnou pozici. Uvidíme, zda to vydrží, protože Nvidia ve výpočetních GPU zůstává velmi silná a nově bude mít i procesory Grace, s nimiž již byly nějaké superpočítače oznámeny. A teď se navíc do tohoto světa chce protlačit i Intel s GPU Ponte Vecchio. Dlužno dodat, že superpočítač na něm založený (americká Aurora, což měl být další exascale systém) zatím neběží. Projekt trápí opakující se zpoždění na straně Intelu.
Více: Intel odhalil extrémní GPU Ponte Vecchio: 7nm, CXL, čiplety a Foveros pro superpočítače
Rusko až dál v první stovce
Mimochodem, možná by vás ve stínu současných událostí zajímalo, jak si v superpočítačích vede Rusko. Země má v první stovce žebříčku TOP500 pět superpočítačů, z toho čtyři novější používající kombinaci procesorů AMD Epyc 7002 (Zen 2) a akcelerátorů Nvidia A100. Nejvýkonnější z nich je systém Červoněnkis na 22. místě s výkonem 21,53 PFLOPS, další tři jsou na 40. až 46. místě s výkony 11,95 až 16,02 PFLOPS.
Před Ruskem je v žebříčku kromě Itálie a Německa nebo Jižní Korey mimochodem také Saudská Arábie – superpočítač Dammam-7 (založený na Intel Xeon Gold 6248 a Nvidia Tesla V100, architektura Cray CS-Storm) je na 18. místě s výkonem 22,4 PFLOPS. Vzhledem k tomu, že používá hardware o něco starší generace, jde i o superpočítač o dost větší/náročnější, než jsou ty v Rusku.
Zdroje: TOP500 (1, 2), TechPowerUp