Procesor Intel Sapphire Rapids unikl: zvětšení cache, i s čiplety se chová jako monolitické CPU

8. 7. 2021

Sdílet

 Autor: YuuKi_AnS
Unikl první benchmark ES vzorku procesoru Intel Sapphire Rapids, který by mohl být hodně velká revoluce. Zatím nemá zdaleka finální výkon, ale zjistili jsme zvětšení pamětí cache a pozoruhodné věci o architektuře.

Nová (a dlužno říct slibná) generace procesorů Intel se už hezky rýsuje. Vedle Alder Lake, které vyjde brzy, se už nashromáždilo hodně i o serverové verzi Sapphire Rapids, která vyjde i jako highendová desktopová platforma W790. Teď máme i první únik vzorku tohoto procesoru: v Geekbench je první benchmark 20jádrového Sapphire Rapids. K výkonu to zatím nic neříká, ale získali jsme tím významné nové informace o architektuře.

V databázi benchmarku Geekbench se objevila dvojice procesorů Sapphire Rapids – 2S systém s dvacetijádrovými procesory. Jde tedy o serverovou verzi, navíc jde určitě o hodně rané vzorky (ES), poměrně daleké tomu, jak budou fungovat finální procesory, jejichž oficiální uvedení je možná skoro rok daleko.

Procesory s 20 jádry a 40 vlákny (takže Intel u HT zůstává u dvou vláken na jádro) běžely v desce či vývojové platformě označené Intel VulcanCity s 32GB paměti RAM a běžící na Linuxu. Záznam o jejich testování je úplně nový, z 6. července. Podle protokolu testu mají tyto vzorky procesorů základní frekvenci 1,5 GHz, což je celkem obvyklé pro rané ES serverových CPU s mnoha jádry. Podle protokolu byla během testu ovšem naměřena velmi vysoká frekvence boostu, údajně konstantních 4,8 GHz. Myslíme si však, že jde o chybnou detekci a takt takto vysoký nebyl.

Skóre systému v jednojádrovém výkonu bylo naměřeno velice nízké, jen 1340 bodů. Jedná se přitom o verzi testu Geelbench 4, v níž jsou dnes u nejlepších procesorů jednojádrová skóre někde kolem 7500 bodů (například Ryzen 9 5950X by měl typicky něco takového dosahovat). Mnohovláknové skóre je 31 666 bodů, opět nic moc (Ryzen 9 5950X s jen 16 jádry dosahuje více než dvojnásobku).

ES procesor Intel Sapphire Rapids v databázi benchmarku Geekbench ES procesor Intel Sapphire Rapids v databázi benchmarku Geekbench (Zdroj: Geekbench)

Jak zřejmě chybně detekovaná frekvence, tak skóre a „IPC“ jádra procesoru, které by tímto skóre bylo implikováno, jsou zřejmě daleko od výkonu, který Sapphire Rapids a jeho architektura Golden Cove budou nakonec reálně dosahovat. Pravděpodobně je to proto, že jde o rané ES a ani firmware platformy, ani fungování samotného CPU nejsou optimalizované. Řada funkcí v CPU může být deaktivovaná a CPU může mít aplikované různé zpomalující „workaroundy“ a mikrokódové opravy kvůli chybám v raném křemíku. Ze skóre teď proto nemá cenu nic usuzovat.

ES procesor Intel Sapphire Rapids v databázi benchmarku Geekbench 2 ES procesor Intel Sapphire Rapids v databázi benchmarku Geekbench (Zdroj: Geekbench)

Paměti cache: zvětšená L2

Důvod, proč o tomto úniku píšeme, je jiný. Geekbench detekuje kapacity pamětí cache a tento záznam nám přináší pohled na to, jak budou v serverové verzi Sapphire Rapids (a tím i v té desktopové/HEDT verzi na platformě W790) vypadat.

L1 cache jsou zdá se u serverového Golden Cove stejné jako v Ice Lake a Tiger Lake (architektury Sunny CoveWillow Cove). Instrukční L1 cache má 32 KB, zatímco datová má 48 KB. Co ale nacházíme nového, je zvětšení L2 cache: zatímco Alder Lake má 1,25 MB na každé jádro, u serverové verze Sapphire Rapids Intel kapacitu navýší na rovné 2 MB na každé jádro.

O tomto jsme již dříve spekulovali proto, protože Golden Cove má v Alder Lake sníženou asociativitu na 10cestnou z 20cestné, jakou měla stejně velká L2 cache v Tiger lake. Pravděpodobně právě proto, aby se otevřela cesta ke zvětšení kapacity u serverové verze. Intel zřejmě udělal totéž, co u serverových variant Skylake-SP a u Ice Lake-SP, tedy že vzal základní verzi jádra a přilepil 768 KB cache navíc. Výsledná L2 cache v Sapphire Rapids by tedy asi měla mít 16cestnou asociativitu. To je nicméně zatím jen dedukce. Nicméně 2MB L2 cache Geekbench i přímo dokládá. Latenci bohužel neprozrazuje.

L3 cache: Sapphire se díky EMIB chová jako monolitické CPU

L3 cache celého procesoru Sapphire Rapids má podle tohoto záznamu 75 MB – tedy alespoň v tomto případě, modely se od sebe asi nakonec budou v kapacitě lišit. Toto je důležitý poznatek. L3 cache tedy nebude dělená jako u procesorů AMD Epyc, ale procesor ji bude vidět jako jeden unifikovaný blok, což je značné plus. Ukazuje to, že CPU Sapphire Rapids, ač je čipletové, není z interního pohledu rozděleno na tak „vzdálené“ ostrovy jako Epyc.

Díky tomu, že pro propojení čtyř čipletů Sapphire Rapids jsou použité můstky EMIB, je zřejmě latence při komunikaci tak nízká, že Intel řeší komunikaci mezi čiplety stejně jako komunikaci přímo mezi jednotlivými jádry v rámci čipletu nebo dřív monolitického CPU – přenáší tedy externě mezi čiplety přímo komunikaci mesh sběrnice bez použití nějakého zvláštního rozhraní pro „přestup“.

Propojení mezi jádry má tedy jen jednu úroveň, zatímco u AMD má dvě – jedno propojení na úrovni jednoho CPU čipletu a pak další úroveň Infinity Fabric propojující CPU čiplety s IO čipletem (kdy navíc komunikace mezi dvěma CPU čiplety musí jít nejdřív do IO čipletu). Zjednodušeně to lze shrnout tak, že Sapphire Rapids by mohl být velmi blízký monolitickému procesoru, se všemi výhodami, které to má, přestože jsou použité čtyři čiplety. Bude mnohem bližší monolitu než čipletové procesory AMD.

Zřejmě 1,25 MB L3 cache na jádro

Pokud vás zajímá, kde se vzala kapacita L3 cache 75 MB, myslím, že by mohlo být vysvětlení takové, že Intel přiděluje ke každému jádru na mesh sběrnici blok L3 cache o kapacitě 1,25 MB. Jak si můžete pamatovat z jedné z předchozích zpráv, Sapphire Rapids je tvořený čtyřmi čiplety, kde na každém je fyziky 15 jader. Celkově je to tedy 60 jader, což by měla být maximální možná konfigurace (ale Intel je zatím opatrný a slibuje jen 56 jader, kdy by na každém čipletu bylo jedno v rezervě jako kompenzace proti defektům ve výrobě). Každopádně ale 60 × 1,25 MB dává 75 MB L3 cache.

Více: Už unikly detaily next-gen Xeonů Sapphire Rapids: 56 jader, 350 W, 64 GB HBM2e uvnitř

bitcoin školení listopad 24

Pokud je tato hypotéza správná, je zde testovaný 20jádrový vzorek tvořen plnými čtyřmi čiplety a ač má dvě třetiny jader neaktivních, všechny bloky L3 cache na mesh sběrnici jsou aktivní. Alternativa by byla, že je L3 cache 1,5 MB na každé jádro a v čipu je aktivních 50 jejích bloků, což zní méně pravděpodobně. Pak by nejvyšší konfigurace s 60 jádry mohla mít při plné aktivaci až 90 MB L3 cache.

Galerie: Informace a úniky k procesorům Intel Sapphire Rapids

Zdroje: Benchleaks, Geekbench, Yuuki_AnS (fotografie)