Dlouho to je asi, co se hardware od AMD naposled objevil v některém z předních superpočítačů. Opterony na bázi architektury Bulldozer se (možná trochu setrvačností) vyskytovaly v Titanu spuštěném v roce 2012, ovšem již s GPU Nvidia Tesla. Teď se ovšem zdá se chystá superpočítač z elitní skupiny – má dokonce dosáhnout výkonu třídy exascale – v kterém budou zároveň procesory i výpočetní GPU značky AMD.
AMD oběma nohama v jednom z prvních exascale superpočítačů
Bude to stroj, který je nazván Frontier a bude umístěn ve stejném pracovišti Oak Ridge National Laboratory amerického minsterstva energetiky, jako byl Titan. Frontier má být zprovozněn v roce 2021 s předpokládaným výkonem přes 1,5 EFLOPS (ExaFLOPS, tedy 1500 PFLOPS). Momentálně nejvýkonnější superpočítače Summit (právě ten má Frontier nahradit) a Sierra s procesory IBM Power9 a GPU Nvidia Tesla V100 mají teoretický výkon 200 a 125 PFLOPS. Pokud vše půjde dobře, bude tedy Frontier zase o generaci a skoro řád (asi 7×) dál.
Měl by být jedním ze dvou prvních „Exascale“ superpočítačů v USA vedle systému Aurora, přičemž Frontier je z nich zřejmě projektován na vyšší výkon a po uvedení by asi mohl být chvíli nejrychlejší na světě. Aurora je postavená na bázi procesorů Intel Xeon a GPU Intel Xᵉ, zatím ale k němu známe jen málo detailů.
Frontier postaví firma Cray, která je se superpočítači historicky spjatá asi jako málokterá jiná. Má být složen z více než 100 kabinetů typu Shasta a celkově bude vyvíjet příkon 30 MW (proti 13MW Summitu, pro Auroru číslo není). Spotřeba superpočítačů v posledních letech s každou generací stoupá a současně s tím také cena. Frontier má celkově přijít na 600 milionů dolarů, z toho 100 milionů je zdá se za vývoj, zbytek za samotnou dodávku a podporu.
Next-gen Epyc a Radeon Instinct
Jednotlivé uzly klastru budou běžet na procesorech Epyc s „budoucí architekturou Zen“, takže by mělo jít o 7nm CPU pravděpodobně už třetí generace („Milan“), která by mohla mít architekturu Zen 3. AMD dost možná pro Frontier vytvoří nějaké speciální modely, má jít o „custom“ verze. Také mají být optimalizované pro AI výpočty, ale nevíme, zda to znamená nějaká speciální instrukční rozšíření, nebo jen něco prozaičtějšího.
Na každý procesor mají být v systému zapojené čtyři výpočetní GPU, také od AMD. Má jít o karty Radeon Instinct, ovšem asi opět ne ty současné, vzhledem k uvedení počítače do provozu za dva roky. Víme o nich ale, že budou používat paměti typu HBM pro vysokou propustnost, s výpočetními jednotkami „upravenými pro HPC úlohy“ (opět těžko říct, co to přesně znamená, ale pro vědecké výpočty by asi měla být zahrnut vysoký výkon v FP64).
Pro výkon ve strojovém učení, které se také dostalo mezi úlohy počítané na superpočítačích, mají tato GPU mít širokou podporu výpočtů s různou přesností. Jako softwarová vrstva se pro výpočty bude používat open source stack AMD ROCm. Na vývoji této platformy se má ovšem podílet i Cray.
Infinity Fabric mezi CPU a GPU
Podle slajdů bude v uzlech použita koherentní propojovací logika, patrně Infinity Fabric, karty tedy nebudou jen běžně na PCI Expressu, ale budou mezi sebou komunikovat při plné koherenci (a sdílení) pamětí/cache, a stejné propojení budou mít i s hostitelským procesorem. To je pokrok proti současným Radeonům Instinct s Infinity Fabric (Vega 20), u nich je koherentní propojení jen mezi jednotlivými GPU.
Toto propojení bude ovšem jen na úrovni jedné instance systému. Klastrové propojení uzlů pak zajistí technologie Cray, a to nová propojovací logika Slingshot. Ta má mít přenosovou kapacitu 200 Gb/s na jeden port, přičemž jeden uzel snad může mít více portů (možná i jeden pro každé GPU).
Frontier bude používat i akademická sféra
Superpočítač Frontier má být používán pro širokou škálu účelů, takže kromě vědeckých výpočtů, modelování a simulací má podporu právě i pro strojové učení (AI) a analýzu dat. Tento počítač bude otevřen pro použití v akademických projektech a výzkumech, což znamená širší spektrum využití, než co by asi používalo samotné ministerstvo energetiky.
Předchozí generace byla IBM + Nvidia, příští bude čistý Intel a AMD
Jak už bylo řečeno, v druhém Exascale počítači Aurora budou použita CPU a GPU Intelu (což je zajímavé, protože původně mělo jít o Xeony Phi a Intel oznámil jejich zrušení a „nahrazení jiným řešením“ ještě předtím, než odhalil svůj vstup do sféry GPU). Spolu s Frontierem od AMD tedy obě zakázky této generace vyhrály firmy, které nabízejí jak CPU, tak výpočetní akcelerátor, zatímco v předchozí generaci bylo řešení ode dvou firem: IBM a Nvidie. Zdá se, že „integrace“ se zde stala výhodou, i když nevíme jistě, zda rozhodující. Roli pochopitelně mohla hrát i cena či další faktory. Podle některých informací má jinak projekt CORAL-2, v jehož rámci se oba systémy budují, příkaz zadat stroje dvěma různým dodavatelům, což také mohlo hrát roli v tom, že jeden superpočítač je nakonec od Intelu a druhý od AMD.