Intel „uvádí“ Max: procesory Sapphire Rapids s HBM2E a Ponte Vecchio proti novým Epycům

16. 11. 2022

Sdílet

 Autor: Intel
Intel zkusil den před odhalením nové generace serverových procesorů AMD strhnout pozornost oznámením nové line produktů Max: Xeonů Sapphire Rapids s 64GB pamětí typu HBM a GPU Ponte Vecchio pro superpočítače. Vyjdou ale až v roce 2023.

Minulý týden přišla významná novinka pro serverový trh: procesory AMD Epyc 9004 založené na 5nm výrobním procesu a architektuře Zen 4, zároveň také s novou platformou podporující paměti DDR5, PCIe Express 5.0 nebo technologii CXL 1.1. Těsně předtím a možná ne náhodou ale ohlásil novinky také Intel. Firma představila novou linii produktů Intel Max, což budou výkonné CPU a GPU pro servery. Ale zatím byly vydané ještě jen papírově.

Odhalení souvisí také s nyní běžící konferencí Supercomputing 22, ale není to poprvé, co Intel odhalil nějaký produkt v poměrně velkém předstihu před jeho reálným vydáním v předvečer chvíle, kdy měla být prezentovaná významná novinka AMD. V roce 2019, těsně před vydáním přelomových Epyců 7002 „Rome“, které vynesly AMD vedení v serverových procesorech, Intel udělal představení vlastních Xeonů Cooper Lake. Ty přitom šly na trh až další rok, a ještě navíc jich do té doby byla značná část zrušena – po hříchu zrovna ty dvoučipové až 56jádrové modely, jejichž časným ohlášením chtěl Intel asi „řešit“ tlak 64jádrových Epyců 7002.

Je možné, že odhalení Intel Max den před příchodem Epycu 9004 mělo aspoň zčásti podobný smysl, tedy nějak vylepšit atmosféru, v níž má konkurence navrch. Ovšem nehledě na toto produkty Max jsou (nebo budou) zajímavé i samy o sobě.

Xeon Max: velká a rychlá paměť HBM2E v procesorech

Procesory Xeon Max jsou něco, o čem už dlouho přicházely úniky a Intel to nijak netajil: půjde o verzi nadcházejících serverových procesorů Xeon generace Sapphire Rapids, která bude sdílet základní společné vlastnosti, tedy osmikanálový řadič pamětí DDR5-4800, podporu PCI Expressu 5.0 a CXL 1.1. Procesory jsou složené ze čtyř 7nm dlaždic (čipletů), propojených technologií EMIB.

Můstky EMIB přímo přemosťují dlaždice na úrovni vnitřního mesh propojení, takže pro software procesor vypadá jako jediné monolitické CPU a jediný NUMA uzel. Nicméně volitelně bude možné procesor rozdělit do čtyř sub-NUMA domén po hranicích čtyř dlaždic, pak běžící procesy budou izolované do lokální paměti připojené na dva řadiče DDR5, které jsou fyzicky na stejném čipu, a je k nim tedy asi o něco rychlejší přístup (rozdíly v latenci ale nemusí být velké).

Prezentace procesorů Intel Xeon Max 01 Prezentace procesorů Intel Xeon Max. Procesor na obrázku je bez kovového rozvaděče tepla, který by ho normálně zakrýval (zdroj: Intel, via: Tom's Hardware)

Sapphire Rapids také přinese novou architekturu jádra s vysokým IPC – Golden Cove z procesorů Alder Lake, ale s 2MB L2 cache a obohacenou o plnou podporu AVX-512 a maticové instrukce AMX. Ve verzi Xeon Max budou tyto procesory mít až 56 jader a 112 vláken. Jádra sdílí L3 cache s kapacitou až 112,5 MB a procesory budou mít TDP do 350 W, tedy prakticky stejné jako nyní vydané Epycy 9004.

Hlavní hvězdou procesorů Xeon Max ale bude velkokapacitní paměť zároveň s vysokou propustností, která je integrovaná velmi blízko jádrům – hned vedle křemíku procesoru. Jde o paměť HBM2E, která se používá u highendových výpočetních GPU, ale zde nebude jedinou pamětí, ale doplňkem k hlavní RAM typu DDR5. Její kapacita je 64 GB, neboli jak Intel uvádí, víc jak 1 GB na jedno jádro CPU. Její propustnost bude až 1 TB/s (pro srovnání – teoretická propustnost operační paměti DDR5 bude 307 GB/s).

Prezentace procesorů Intel Xeon Max 03 Prezentace procesorů Intel Xeon Max (zdroj: Intel, via: Tom's Hardware)

HBM2E může být nakonfigurovaná pro různé funkce

Tato paměť může fungovat ve třech různých režimech. Může tvořit obří transparentní „pseudo L4“ cache mezi RAM a procesorem, která bude automaticky zvyšovat výkon aplikací pracujících s pamětí, aniž by o ní musely nějak vědět.

Nebo může HBM2E být adresována spolu s hlavní pamětí DDR5, takže získáte součet jejich kapacit, ale s tím, že část tvořená pamětí HBM2E je mnohem rychlejší. Toto bude výhodné nastavení pro aplikace, které budou speciálně optimalizované. Software a OS budou mít možnost zjistit, které části paměti jsou rychlejší a které pomalejší, a podle toho do nich rozdělí svoje data.

Prezentace procesorů Intel Xeon Max 02 Prezentace procesorů Intel Xeon Max (zdroj: Intel, via: Tom's Hardware)

Třetí režim je takový, že procesor pracuje jen se svou integrovanou pamětí HBM2E jako hlavní RAM a nemá instalovanou žádnou DDR5. Toto bude asi nejvýkonnější možnost pro aplikace, které nepotřebují tolik paměti a vejdou se do 64 GB. Zde nebude třeba nijak upravovat software.

Xeon Max je produkt zaměřený zejména na sektor HPC (superpočítače), technické a vědecké simulace a podobné výpočty. Jde tedy o procesor, který má stejné zaměření jako Epycy „X“ opatřené 3D V-Cache od AMD. Obě firmy ale řeší problém jinou cestou. AMD zvětšilo L3 cache procesoru, která má ale pořád o dva řády menší kapacitu (dohromady 768 MB u generace Milan-X, v osmi 96MB blocích), kdežto Xeon Max má 64 GB. Na druhou stranu řešení AMD dodává v rámci kapacity L3 cache výrazně vyšší propustnost než HBM2E u Xeonu Max. Obě tato řešení mohou být lepší než druhé pro určité konkrétní zátěže a aplikace.

Data Center GPU Max: extrémní čipletový akcelerátor

Do řady Max firma Intel zároveň zařadila výpočetní GPU pro superpočítače, které mají poněkud krkolomné jméno Data Center GPU Max (logičtější Xe Max si už totiž Intel vyčerpal a mnohem hezčí „Arc Max“ asi není vhodné, protože Arc jsou herní a spotřebitelská GPU).

Pod tímto jménem se neskrývá nic jiného než výpočetní GPU Ponte Vecchio s architekturou Xe HPC. Jeho hlavní nasazení má být v exascale superpočítači Aurora a bylo prezentováno poprvé již před třemi roky, doznalo ale značného zpoždění (to ostatně také Xeony Max / Sapphire Rapids). Ponte Vecchio neboli Data Center GPU Max ale bude k mání i pro další zákazníky.

Prezentace akcelerátoru Intel Data Center GPU Max 01 Prezentace akcelerátoru Intel Data Center GPU Max (zdroj: Intel, via: Tom's Hardware)

Jak už se ví delší dobu, Ponte Vecchio nasadilo čipletovou konstrukci v zatím bezprecedentní míře, kdy je disagregováno do desítek čipletů různých výrobních procesů s různou rolí (výpočetní jádra, propojovací logika, základová dlaždice, cache dlaždice, paměti HBM2E a jejich propojky EMIB).

Výsledkem je výpočetní GPU „stack“ s 64 Xe Core (jedno Xe Core je obdoba bloků SM a CU v GPU od Nvidie a AMD) a se čtyřmi čipy paměti HBM2E, tedy s 4096bitovou šířkou pamětí. Ovšem Intel počítá s tím, že ve většině nasazení bude jedno GPU ve skutečnosti složené ze dvou těchto stacků vedle sebe, a bude tedy mít 128 Xe Core a osm čipů HBM2E. Je to tedy podobné „dvojče“ jako konkurenční Instinct MI200 od AMD, které je ale jinak monolitické.

Prezentace akcelerátoru Intel Data Center GPU Max 04 Prezentace akcelerátoru Intel Data Center GPU Max (zdroj: Intel, via: Tom's Hardware)

Jedno jádro Xe Core v architektuře Xe HPG je patrně v lecčem příbuzné s herní architekturou v grafikách Arc. Xe Core obsahuje 8 vector enginů, což jsou obecné výpočetní „shadery“, dále 8 jednotek XMX pro akceleraci AI, a dokonce také jednu jednotku RTU pro výpočet raytracingových efektů.

Prezentace akcelerátoru Intel Data Center GPU Max 02 Prezentace akcelerátoru Intel Data Center GPU Max (zdroj: Intel, via: Tom's Hardware)

Podle Intelu jedno jádro Xe Core dokáže v jednotkách XMX zpracovat až 8192 operací s hodnotami INT8, 4096 operací s FP16 nebo BFloat16 nebo 2048 operací s hodnotami TF32. Obecné vector enginy zvládnou 512 operací FP16, 256 operací s přesností FP32 a stejný počet 256 operací s hodnotami FP64, tedy v dvojité přesnosti – v tomto je tedy odlišnost od herních GPU Arc.

Dvoustackové plnotučné GPU má mít celkový výpočetní výkon 52 TFLOPS v FP32 a FP64 a až 1678 TOPS v AI aplikacích pomocí maticových operací na jednotkách XMX (údaj pro 8bitové výpočty INT8).

Prezentace akcelerátoru Intel Data Center GPU Max 03 Prezentace akcelerátoru Intel Data Center GPU Max (zdroj: Intel, via: Tom's Hardware)

GPU extrémně vybavené pamětmi cache

Nicméně na Ponte Vecchiu nebude asi nejzajímavější hrubá výpočetní síla shaderů či jednotek XMX. Unikátní je na něm velmi silný systém pamětí cache, který umožňuje, aby GPU při náročných výpočtech mělo všechna data po ruce a výkon škáloval i u komplexnějších úloh, než je jednoduchý Linpack (toto je často u výpočetních GPU problém).

Ponte Vecchio má 204 MB L2 cache – 144 MB cache je v základové dlaždici, dalších 60 MB v tzv. „Rambo Cache“ v separátní dlaždici. L1 cache má celkem kapacitu 32 MB pro jeden stack a také fyzický soubor registrů čítá dohromady 32 MB. Paměťový subsystém pak korunuje 64 GB paměti HBM2E s propustností 1,6 TB/s. Toto vše se pak ještě násobí dvěma v případě GPU složeného ze dvou stacků.

Prezentace akcelerátoru Intel Data Center GPU Max 05 Prezentace akcelerátoru Intel Data Center GPU Max (zdroj: Intel, via: Tom's Hardware)

Dvěma stacky v jednom pouzdru či modulu ale možné škálování nekončí, protože integrována je také propojovací logika Xe Link, umožňující propojit v serveru či HPC nodu několik těchto GPU – maximálně zřejmě až osm.

Modely v provedení OAM, ale i jako karty PCI Express

Komerčně bude Intel Data Center GPU Max možné koupit v různých podobách. Nejvýkonnější forma se jmenuje Data Center GPU Max 1550 a bude mít mezaninový formát OAM a TDP 600 W, toto bude akcelerátor s dvěma stacky, a tedy 128 Xe Core a 128 GB paměti HBM2E. Celkový výkon bude oněch 52 TFLOPS v FP64.

GPU Intel Vecchio v provedení OAM 1600 GPU Intel Vecchio v provedení OAM. Na obrázku vidíte čtyři mezaninové akcelerátory, každý s dvoustackovým Intel Data Cente GPU Max (zdroj: Intel)

Jako levnější alternativu bude Intel prodávat Data Center GPU Max 1350, což bude stále akcelerátor v provedení OAM, ale částečně ořezaný, každý stack bude mít aktivních jen 56 Xe Core, takže celkově dostanete 112 Xe Core. Paměť bude zmenšená o čtvrtinu na šířku 3072 bitů na jeden stack – v každém stacku tedy bude jedna ze čtyř pamětí HBM2E neaktivní nebo zcela neosazená. Nemáme údaj o výkonu a je možné, že budou nižší frekvence, tato varianta má totiž TDP jen 450 W.

Třetí varianta se jmenuje Data Center GPU Max 1110 a je již složená jen z jednoho stacku, a to opět částečně deaktivovaného na celkových 56 Xe Core. Také paměť bude logicky poloviční, 48 GB (takže tak budou aktivní jen tři pouzdra HBM2E).

Intel Data Center GPU Max 1100 v provedení karty PCI Express 1600 Intel Data Center GPU Max 1100 v provedení karty PCI Express (zdroj: Intel)

Tato verze má spotřebu jen 300 W, ale zajímavé je hlavně, že už půjde o kartu PCI Express do klasického slotu ×16. Má mít plnou délku i výšku a tloušťku dva sloty, patrně s pasivním chladičem pro použití v rackových skříních se silnými serverovými ventilátory. Pokud byste tuto kartu chtěli do pracovní stanice, patrně by bylo nutné chladič vyměnit za aktivní. Zatím nevíme, zda třeba tato verze nebude mít i grafickou funkcionalitu, nebo dokonce i obrazové výstupy. Dost možná ale půjde stále o jen čistě výpočetní řešení.

Mimochodem, Intel už před časem oznámil následující generaci Data Center GPU Max, ta má kódové označení Rialto Bridge a například zvýší počet Xe Core v jednom stacku na 80.

Intel Rialto Bridge Intel Rialto Bridge, druhá generace HPC GPU Intel (zdroj: Intel)

Více: Nejvýkonnější GPU Intelu má 20 480 jednotek FP32 a spotřebu 800 W. Po něm přijdou „XPU“

ICTS24

Dostupnost až příští rok, ale hned v lednu

Jak už ale bylo řečeno, uvedení či odhalení obou těchto produktů Max je zatím jenom předběžné. Intel uvádí, že po mnoha odkladech (celkově o víc než rok) budou Xeony Max a Data Center GPU Max dostupné pro zákazníky v lednu 2023. Konečně se tedy také blíží nahození onoho mnohokrát opožděného superpočítače Aurora. V lednu mají být ke koupi první systémy s tímto hardwarem od vícero dodavatelů serverů, takže toto už by opravdu mělo být reálné vydání.

Zdroje: Intel, Tom's Hardware