Amazon uvádí doteď nejrychlejší ARM procesor Graviton4 i vlastní AI čip. Gravitonů vyrobil 2 miliony

7. 12. 2023

Sdílet

Amazon Graviton4 Autor: Amazon / AWS
Amazon Graviton4
Do cloudů a datacenter Amazonu se chystá už čtvrtá generace jeho vlastních ARM procesorů a druhá generace jeho vlastního čipu pro akceleraci AI, který je konkurencí pro GPU od Nvidie.

Minulý měsíc odhalil Microsoft první vlastní procesory vyvíjené pro potřeby svých datacenter a služby Azure. Také Amazon, který byl z těchto amerických hyperscalerů první, kdo se cestou vlastního hardwaru pustil, teď uvádí nové CPU pro své servery. A současně i vlastní akcelerátor umělé inteligence nazvaný Trainium2, jelikož jde už o druhou generaci jeho vlastního AI hardwaru. Amazon také prozradil, že už vyrobil přes dva miliony svých CPU.

Graviton4: 96jádrový ARM Neoverse V2

Amazon vydal svůj první ARM procesor pro servery v roce 2018, tehdy šlo spíše o pokusný SoC. Zásadní změnou bylo použití licenční architektury ARM Neoverse N1 (Graviton2 v roce 2019), po čemž Graviton3 v loňském roce přešel na výkonnější jádra Neoverse V1. Nyní byla oznámená nová generace vlastního procesoru Amazon AWS – Graviton4.

Graviton4 má 96 jader (o 50 % více než předchozí generace) a poskytuje 12kanálový řadič pamětí DDR5–5600. V počtu kanálů se tedy rovná Epycu 9004 Genoa od AMD, avšak podporuje oficiálně rychlejší paměti, takže dosáhne vyšší propustnosti; Epyc 9004 ale díky SMT poskytuje 2× tolik vláken. Procesor je opět čipletový, ale na rozdíl od designu AMD používá jeden velký křemík s jádry CPU (pravděpodobně 4nm) a několik menších IO čipletů okolo, zatímco u AMD funguje jeden velký IO čiplet jako centrální jednotící prvek a jádra jsou v malých CPU čipletech napojených na něj.

Amazon bohužel není moc sdílný s dalšími detaily. Nevíme, jaká je například frekvence jader a nebyla jmenována ani použitá architektura. The Next Platform ovšem uvádí, že by mělo jít o jádra Neoverse V2 s 2MB L2 cache a celkově 192 MB L3 cache. Neoverse V2 je modifikace mobilního jádra Cortex-X3. Jde také o stejný základ, na kterém staví procesor od Nvidie.

Amazon Graviton4

Amazon Graviton4

Autor: Amazon/AWS

Toto jádro už je architektura s instrukční sadou ARMv9 a podporou instrukcí SVE2, ovšem proti 256bitové předchozí generaci V1 byla fyzická šířka SIMD jednotek zredukována jen na 128bitů (tedy jako u instrukcí NEON/SSEx), takže v hrubém výkonu SIMD (například během vědeckých výpočtů) rekordy trhány nebudou, zejména pokud bude Graviton4 postaven proti procesorům s AVX-512.

Podle Amazonu má Graviton4 o 30 % lepší výkon než Graviton3 ve webových aplikacích, má dosahovat až o 40 % lepšího výkonu v databázových aplikacích a o 45 % lepšího výkonu v javových aplikacích.

Procesor bude dostupný v cloudových instancích EC2 R8g. Ty dle Amazonu dosáhnou maximálně až 3× více vláken než R7g s Gravitonem3, což by mohlo znamenat, že Graviton4 už je možné provozovat v 2S konfiguraci. Tyto instance jsou zatím dostupné jen pro testování, komerční dostupnost by měla přijít během několika příštích měsíců.

Trainium2 proti Nvidii

Vedle procesorů začal Amazon také pracovat na vlastním designu AI akcelerátorů, které jsou pro změnu náhradou za GPU od Nvidie, určená pro akceleraci různých aplikací umělé inteligence (či jejich trénování). Údajně má dosahovat až 4× vyššího výkonu než předchozí generace Trainium (jedna) a až dvojnásobné energetické efektivity.

Dle ukázaného pouzdra by mělo jít o akcelerátor tvořený dvěma symetrickými výpočetními čiplety, kde každý má připojenu paměť typu HBM ve dvou pouzdrech. Celkem má akcelerátor mí 96 GB paměti, takže jsou patrně použita 24GB pouzdra.

Amazon Trainium2

Amazon Trainium2

Autor: Amazon / AWS

Amazon bohužel ani zde neprozradil prakticky žádné další technické detaily. Původní Trainium podporovalo výpočty pro neuronové sítě s přesností FP32, TF32, BF16, FP16, INT8 a FP8, přičemž výkon ve výpočtech FP16/BF16 byl uváděný 190 TFLOPS. Onen čtyřnásobek pro Trainium2 by znamenal 760 TFLOPS, ale je pravděpodobné, že to je jen orientační údaj.

bitcoin školení listopad 24

V serverech má být Trainium2 používáno v klastrech 16 akcelerátorů, přičemž budou chlazené kapalinou. Škálování je údajně možné na ještě větší klastry až o 100 000 akcelerátorů, které by mohly údajně dosahovat výkonu až 65 EXAFLOPS (pochopitelně jen v AI operacích, nejde o číslo srovnatelné s TFLOPS uváděnými pro superpočítače nebo obecný výpočetní výkon GPU).

Zdroje: The Next Platform, Serve The Home, Tom's Hardware