Tento měsíc představil americký startup Ampere (ovšem vzniklý z bývalé CPU divize Applied Micro) výkonný serverový procesor Altra s 80 jádry architektury ARM na 7nm procesu a slibující výkon konkurenceschopný se špičkovými Epycy 7002 „Rome“ od AMD. Jen pár týdnů na to vynáší svou kartu v brzy možná hodně zaníceném boji o serverový trh také Marvell. Ten se po akvizici firmy Cavium stal předním (pokud ne úplně nejpokročilejším) hráčem v serverových procesorech ARM. ThunderX2 s 32 jádry Vulcan původně vzniklými v Broadcomu byl první skutečně vyzrálý a výkonný ARM pro servery. Nyní na něj Marvell navazuje novou generaci, která už je také vyráběná na 7nm procesu. A je to docela překvapení: jedno CPU má totiž rovnou 96 jader a díky 4-way SMT dokonce 384 vláken. Výkon by tedy mohl být opravdu vysoký.
ThunderX3: Marvell jde dál vlastní cestou a slibuje masivní nárůst výkonu
Jak jste možná už dovodili, ThunderX3 se bude vymykat proti Gravitonu2 od Amazonu i zmíněnému Ampere Altra, protože zatímco ty oba používají licenční architekturu ARM Neoverse N1 (takže s v mnohém budou podobat), Marvell/Cavium jde dál vlastní cestou a jádro je opět jeho vlastní. Díky tomu si zachovává SMT se čtyřmi vlákny na jedno jádro, Neoverse vůbec SMT nepoužívá.
Tip: Procesory Cavium ThunderX2 jdou na trh. První skutečně výkonný ARM pro servery
Architektura je proti Vulcanu v ThunderX2 ale výrazně vylepšená, Marvell zvýšil významně IPC (výkon na 1 MHz), údajně o více než 25 %. Takže i pře identické frekvenci by byl 7nm procesor na jedno jádro výkonnější. Frekvence ale současně narostly také, takže jednovláknový výkon má být lepší až o 60 %.
Více než 3× vyšší výkon, efektivita o 30% lepší než u 7nm Epyců
A protože má ThunderX3 i třikrát tolik jader co ThunderX2 (96 místo 32), je jasné, že mezigenerační skok bude hodně velký, očekává se s výkon celého procesoru více než třikrát vyšší proti ThunderX2 (to už asi zahrnuje ztráty z nedokonalého škálování na vysoké počty vláken). A Marvell slibuje i excelentní energetickou efektivitu, která má být lepší než u konkurenčních x86 procesorů. Údajně dosáhne až o 30 % lepší efektivity než rovněž 7nm AMD Epyc Rome.
96 jader bude používat instrukční sadu ARMv8.3+. Společnost ještě nespecifikovala konkrétní modely, ale u ThunderX2 bylo v katalogu velké množství konfigurací s různými počty jader a spotřebou, toto bude patrně zopakováno. Plánovány jsou procesory s TDP od 100 do 240 W. Přičemž nejvýkonnější 240W verze mají mít údajně frekvenci až 3,0 GHz při zátěži všech jader. 16nm ThunderX2 končil pro zátěž všech jader na 2,5 GHz, takže zde je o 20 % vyšší. Je možné, že jedno/málovláknový boost by mohl jít ještě výš, protože už ThunderX2 by snad měl mít také ještě vyšší jednovláknový boost (2,96 GHz).
PCI Express 4.0, podpora 2S režimu
ThunderX3 kromě jader posílí i konektivitu. Procesor má 16 řadičů PCI Express 4.0 se čtyřmi linkami, což dává dohromady 64 linek PCIe 4.0 na jeden procesor. Zároveň ale je pořád podporován i dvouprocesorový (2S) režim, jak se patří na dospělé serverové CPU. U takové konfigurace se počet linek sčítá, takže jich systém má 128. Procesory se propojují pomocí proprietární koherentní logiky CCPI třetí generace, jenž používá 24 linek o propustnosti 28 Gb/s (takže celkem z toho vychází 84 GB/s). Marvell zachoval osmikanálový řadič pamětí, podporována je DDR4-3200, samozřejmě s ECC. Procesor by měl mít i další RAS funkce a také podporuje virtualizaci.
Mikroarchitektura: výrazně posílený výkon v SIMD kódu
Jak už bylo zmíněno, má se IPC jader zvednout o víc jak 25 %, ovšem Marvell zatím neprozradil, jaké změny a vylepšení architektury za tím budou stát. Ze starších informací vyplývá, že by se měly měnit cache, prefetch a také zvětšovat out-of-order struktury. Ovšem jeden detail prozrazen přece jen byl: Jádro ThunderX3 výrazně zlepší výkon v SIMD instrukcích, který nebyl zrovna silnou stránkou ThunderX2. Tam byly v jádře jen dvě SIMD pipeline pro instrukce Neon, které spolu dokázaly zpracovat dvě 128bitové instrukce za takt.
ThunderX3 zůstane u šířky vektoru 128 bitů (je pevně dána instrukčním rozšířením Neon, pro víc by muselo být použito rozšíření SVE, které zatím přijalo jen Fujitsu, které je spoluautorem). Ale počet SIMD jednotek byl zvýšen na čtyři. Tolik měl první Zen od AMD (Zen 2 má stejný počet, ale 256bitových), takže procesor poněkud zkrátí (ale neeliminuje) náskok x86 architektur v hrubém výkonu při použití SIMD instrukcí. I když samozřejmě také bude záviset na tom, jaké konkrétní operace budou které jednotky zvládat, například FMA může podporovat jen část a tak podobně.
Marvell uvádí, že pokud programy dokáží vyššího SIMD výkonu použít, tak může výkon celého 96jádrového CPU proti ThunderX2 s 32jádry narůst dokonce 5×. A to přesto, že při aktivitě těchto SIMD jednotek poněkud vzroste spotřeba jádra, takže se podobně jako v případě AVX/AVX-512 u Intelu dynamicky sníží takt. Při takovýchto zátěžích budou údajně všechna jádra běžet na taktech někde v pásmu 2,2 až 2,6 GHz.
Vydání později letos
Více podrobností o jádře Marvell odhalí na srpnové konferenci Hot Chips, pokud se tedy tato událost bude letos konat. Každopádně je ale v plánu vnitřnosti architektury trošku odhalit veřejnosti, takže detailů jako počtů jednotek a dalších zajímavostí se nám snad posléze dostane.
Do prodeje by se měly ThunderX3 dostat někdy později v tomto roce. Termín zatím není přesně sdělen, takže to asi bude v jeho druhé polovině. Čipy tím budou konkurovat asi hlavně 3. generaci AMD Epyců Milan a už i 10nm Intel Xeonům Ice Lake. Ovšem vypadá to, že by pro to ThunderX3 měl mít hodně dobré předpoklady.
5nm ThunderX4 bude následovat v roce 2022
Marvell také naznačil roadmapu, podle které by zřejmě nové procesory linie ThunderX mohly vycházet každé dva roky. Následující generace ThunderX4 je zdá se očekávána na rok 2022. V té době by snad už mohla opět používat nový výrobní proces, takže by zřejmě už mohla být na 5nm technologii.
Zdroj: AnandTech