Amazon uvádí procesor Graviton2: 7nm, 64 jader ARM, 30 miliard tranzistorů. Drtič Intelu?

5. 12. 2019

Sdílet

Předevčírem jsme psali o tehdy ještě jen uniklých informacích o novém ARM procesoru, který pro své servery vyvinul Amazon. Skoro vzápětí byla tato novinka potvrzena a společnost tento pozoruhodný hardware odhalila. Čip nazvaný Graviton2 by nakonec měl být jedním z nejvýkonnějších procesorů pro servery (možná vůbec, ne pouze v rámci architektury ARM). A je mimo jiné vyráběný na nejmodernějším 7nm procesu, tedy pokročilejší technologii než mají serverové Xeony od Intelu. Graviton2 pochází opět od interního vývojového oddělení Amazonu vzniklého z polovodičové firmy vyvíjející ARM SoCy Annapurna Labs (akvizice proběhla v roce 2015). Oproti první generaci Gravitonu, která asi připomínala spíše úspornější čipy, jaké se před lety tlačily do tzv. „mikroserverů“, je Graviton2 zdá se o dost vyšší liga. Amazon uvádí, že výkon na jedno jádro je proti první generaci až dvojnásobný (což byla slabina ARMu i obecně), výkon paměťového subsystému pětinásobný a celkový výkon procesoru je lepší až 7×.

Pozoruhodné 7nm 64jádro

Čip je vyrobený na 7nm procesu, což je významná věc, protože by to mělo být spojeno s velmi vysokou počáteční investicí a vyvíjet 7nm ASICy nemůže každý (Amazon bude náklady tedy chtít amortizovat na velkém objemu vyrobených – a ve svých cloudech používaných – kusů). Tento procesor má nakonec dokonce 64 jader ARM Neoverse N1, což je licenční architektura od ARM Holdings, jejíž základem je Cortex-A76, ovšem s úpravami pro serverové nasazení. Amazon tedy nasadil stejný počet jader jako mají nejvýkonnější Epycy 7002 od AMD, standardní Xeony Cascade Lake od Intelu mají přitom pořád jen 28 jader. Graviton2 je vůbec asi první design založený na architektuře Neoverse, který se dostal na trh (alespoň veřejně).

Jádro umí dekódovat čtyři instrukce za takt, dispatch má propustnost až osm operací za cyklus. Jde o jádro s poměrně krátkou pipeline (jen 11 stupňů), které by tak mělo dosahovat o něco nižších frekvencí, než třeba Zen 2 nebo Skylake. Je také o něco užší: má tři ALU, dvě FPU/SIMD pipeline (instrukce ARM Neon s šířkou 128bit, nikoliv zřejmě SVE; podporovány jsou ale operace s hodnotami INT8 a FP16 pro neuronové sítě). Každé jádro obsahuje 64 KB L1 cache (asi 32KB+32KB pro data a instrukce) a 1 MB L2 cache.

Přehled architektury CPU jádra ARM Neoverse N1 (Zdroj: AnandTech) Přehled architektury CPU jádra ARM Neoverse N1 (Zdroj: AnandTech)

Galerie: Serverová architektura ARM Neoverse N1, detaily z prezentace jádra

Jádra jsou propojena logikou typu mesh (jako serverové Skylake-X či Cascade Lake-X), mají k ruce sdílenou 32MB L3 cache a osmikanálový řadič DDR4-3200, stejně jako Epyc 7002. Jako ten také Graviton2 podporuje PCI Express 4.0, obsahuje řadič se 64 linkami. Mimochodem, čip podporuje transparentní šifrování paměti pomocí AES256, ba dokonce je zřejmě vždy používáno ve výchozím nastavení. Čip také podporuje kompresi RAM, k čemuž používá speciální akcelerátory, které dokáží zpracovat tok dat až 1 TB/s.

Obří 7nm čip, velký skoro jako Rome

Toto vše zabírá 30 miliard tranzistorů, takže půjde o hodně velký kus křemíku. Pro srovnání – GPU Vega 20 od AMD má jen 13,23 miliardy tranzistorů a velikost čipu 331 mm², takže Graviton bude pravděpodobně veliký jako highendové GPU (550 mm², ne-li víc) a využívá téměř naplno potenciál toho, jak velký může 7nm čip být. Nikde není zmíněno, že by bylo použito zjednodušení/berlička ve formě čipletové konstrukce, jako má AMD, takže jde snad o takto velký 7nm monolitický čip. TDP by tedy asi také mohlo být celkem vysoké, ale Amazon ho neprozradil. Nevíme ani, jak procesor vypadá, jaké má pouzdro a tak podobně.

Pro kontext: 64jádro AMD Epyc 7002 obsahuje osm 7nm čipletů, každý s 3,9 miliardami tranzistorů po 74,5 mm² a dále 416mm² 12nm čiplet s 8,34 miliardami tranzistorů (viz článek o architektuře Zen 2). Celkem je to tedy 39,54 miliardy, jen o cca třetinu víc, než co má snad Amazon v jediném kusu křemíku.

Amazon AWS Graviton2 prezentace1Jako s prvním Gravitonem je tu však nevýhoda plynoucí toho, že jej vyvinul gigant typu Amazon: tento procesor nelze koupit ani jinak vlastnit. Bude nabízen jen jako služba v jeho cloudu AWS. Firma s ním chystá instance pojmenované M6, C6 a R6. První bude mít jedno až 64 jader a až 256 GB paměti, druhá zaměřená na výpočetní výkon také 1–64 jader a 128GB RAM, třetí je zaměřená na kapacitu RAM a bude mít až 512 GB paměti. Provozovat bude možno několik distribucí Linuxu a nejrůznější sadu softwaru. Dostupné by tyto instance měly zřejmě být až někdy v roce 2020 (takže nynější oznámení Gravitonu2 je cosi jako papírové uvedení), momentálně je Amazon stále ještě jen testuje.

Amazon AWS Graviton2 prezentace2

Výkon má zahanbit Xeony Platinum

A Amazon slibuje také velmi vysoký výkon, a to i proti instancím M5 založeným na Xeonech Platinum 8175 od Intelu (generace Skylake-SP s 24 jádry, tedy ne úplně nejnovější Cascade Lake-SP, ani top model). Graviton2 má proti instancím M5 být o desítky procent výkonnější v přepočtu „na jedno vCPU“ (a také prý mít o 40 % lepší poměr cena výkon, cena má být o 20 % nižší):

  • SPECjvm® 2008: +43% (estimated)
  • SPEC CPU® 2017 integer: +44% (estimated)
  • SPEC CPU 2017 floating point: +24% (estimated)
  • HTTPS load balancing with Nginx: +24%
  • Memcached: +43% performance, at lower latency
  • X.264 video encoding: +26%
  • EDA simulation with Cadence Xcellium: +54%

Zde je třeba asi obvyklé varování, že jde o benchmarky nabízené přímo Amazonem, které tedy mohou být selektivní, záviset na speciálním vyladění testovaného softwaru či být jinak zavádějící. Například vyšší výkon při enkódování v x264 (programu, jenž je enormně optimalizovaný ručně psaným asemblérem pro instrukce SSEx i AVX2, pravda asemblér pro ARM Neon má také) přes to, že má SIMD část jádra Neoverse jen dvě 128bitové pipeline, zní až neuvěřitelně dobře.

bitcoin_skoleni

Ačkoliv procenta vypadají skvěle, lze najít minimálně jeden háček. „vCPU“ znamená jedno vlákno. Zatímco u Gravitonu2 má každé jádro jedno vlákno, v případě Intelu znamená vlákno polovinu jádra (jedno vlákno v rámci HT) a pokud byla testem vytížena obě vlákna, pak je jejich výkon logicky snížený. Naopak jádro Gravitonu2 mělo plný výkon, což zde dovoluje Amazonu ukazovat velmi dobře vypadající výsledky. Zajímavější by asi bylo Graviton2 srovnat s Epycem 7742, jenž má plných 64 jader a stejně jako Graviton2 je vyráběn na 7nm procesu (ovšem nevíme, zda nemá třeba o hodně vyšší spotřebu).

Pokud by procesor trh rekordy například v benchmarku SPEC nebo podobných, Amazon by to nejspíš oznámil, takže je možné, že v absolutním výkonu je za Epycem Rome, nicméně může asi překvapit.

Galerie: Křemíkové firmy, které vyrábějí procesory s technologií ARM