Nejvýkonnější GPU Intelu má 20 480 jednotek FP32 a spotřebu 800 W. Po něm přijdou „XPU“

3. 6. 2022

Sice ještě pořád nerozběhal tu první, ale Intel už představil druhou generaci svého extrémního, z desítek čipletů složeného výpočetního GPU, nazvanou Rialto Bridge. To hlavní ale přijde až po ní: Intel chce GPU i procesory integrovat do jednoho „XPU“.

Tento týden jsme psali o novém nejvýkonnějším superpočítači světa Frontier, který jako první vstoupil do tzv. „exascale“ éry. Frontier je založený na procesorech a GPU od AMD, také Intel ale měl v USA postavit exascale superpočítač s GPU Ponte Vecchio. Ten má pořád zpoždění, ale Intel již teď oznámil příští generaci v něm použité technologie: pokročilé GPU Rialto Bridge složené z velkého množství 3D čipletů. Díky této sofistikovanosti by to mohlo být extrémně schopné GPU, ale na druhou stranu se zdá, že přinese jen relativně malý pokrok proti Ponte Vecchio.

Rialto Bridge (předtím v roadmapě označené jako „Ponte Vecchio Next“) je evolucí koncepce Ponte Vecchio, která by měla eventuálně směřovat k produktu, který spojí jak HPC procesor, tak akcelerátor do jednoho „XPU“ (což je cíl, který řadu let prezentovaly AMD i Nvidia, ale zatím k tomuto nepřikročily). Tato generace XPU má označení Falcon Shores, ale je ještě vzdálená. Mezitím Intel vydá ještě jedno samostatné GPU pro superpočítače, jímž je Rialto Bridge, které by podle Intelu mělo být hotové v roce 2023. Nicméně to má být dostupnost vzorků, takže uvidíme, zda se pak ještě nebude dlouho čekat na produkční nasazení jako u Ponte Vecchio.

Druhá generace výpočetních GPU Intelu: Rialto Bridge

Rialto Bridge je od pohledu (tedy aspoň na vizualizacích, fotky zatím nejsou) hodně podobné Ponte Vecchiu – jde o velké pouzdro s výpočetním akcelerátorem složeným z velkého množství čipletů (Intel pro ně používá označení dlaždice, tile), které tvoří celé GPU jako skládačka. Počítá se s použitím čistě v serverech, toto GPU nebude asi nikdy existovat v podobě karty PCI Express, natož pak grafické karty.

Samotné výpočetní jednotky by měly být v osmi čipletech (na obrázcích stříbřitých), zvlášť je propojovací konektivita (dva čiplety měděné barvy) a některé kusy křemíku jsou zřejmě jen pasivní vložky vyplňující prázdné místo (patrně některé ze zlatě zbarvených čipletů). Podle vizualizací se zdá, že možná zmizely čiplety tzv. „Rambo Cache“, které byly separátní, ale Rialto Bridge možná tuto cache bude mít integrovanou ve výpočetních čipletech. Výpočetní čiplety jsou, zdá se, o dost větší a podle vizualizace je jich jen osm, zatímco Ponte Vecchio bylo víc rozdrobené do 16 výpočetních dlaždic.

Pod těmito čiplety by asi měl být schovaný ještě křemík základového čipletu, který tvoří propojení (je použito 3D pouzdření s čipy ležícími na sobě). Další křemík přidávají paměti, které by zřejmě již u Rialto Bridge měly být typu HBM3, snad opět v počtu osmi kusů na každé pouzdro – což dává celkovou šířku sběrnice 8192 bitů.

Nový proces a +25 % jednotek

Intel zatím neuvádí k Rialto Bridge velké množství informací. Architektura samotných jednotek GPU je, zdá se, hodně podobná Ponte Vecchiu, Intel ji označuje jako Xe HPC. Zásadní rozdíl je v tom, že se zvýší počet jednotek Xe Core ze 128 na 160, tedy o jednu čtvrtinu, a počet Matrix Core pro AI výpočty se zvýší z 1024 na 1280. Výkon by měl stoupnout o něco víc – Intel uvádí, že různé aplikace by měly pozorovat asi 30% zlepšení.

Pro srovnání: herní GPU Intel Arc končí na 32 Xe Core, což u něj znamená 4096 shaderů. 160 Xe jader by tak mohlo být 20 480 shaderů, pokud pořád platí, že jedno Xe Core má 128 shaderů (jednotek FP32).

Intel Rialto Bridge, druhá generace HPC GPU Intel (Zdroj: Intel)

Intel ještě neříká, zda budou zvetšené kapacity cache nebo jaká bude propustnost pamětí. Rialto Bridge má údajně zvýšenou propustnost I/O, což nejspíš znamená propustnost rozhraní sloužících pro komunikaci GPU mezi sebou – základní připojení do systému je již u Ponte Vecchio PCI Express 5.0 a Rialto Bridge pravděpodobně ještě nebude umět PCI Express 6.0.

Rialto Bridge by prý mělo používat novější výrobní procesy. První generace těchto HPC GPU Ponte Vecchio používala kombinaci 5nm a 7nm procesů TSMC (N7 a N5) a 7nm proces Intelu (Intel 7) pro různé dlaždice, přičemž ty nejkritičtější výpočetní byly paradoxně od TSMC. Intel vyráběl základovou dlaždici a čiplet s Rambo Cache. Je možné, že Rialto Bridge přenese výpočetní čiplet zpátky na proces Intelu, možná 4nm (Intel 4). Alternativou by bylo použití 4nm procesu TSMC, nebo možná 3nm, pokud chce být Intel víc agresivní.

800W TDP

Přes využití novějších procesů, zdá se, poroste spotřeba. První generace těchto superpočítačových GPU měla TDP 600 W. Používala provedení OAM (Open Accelerator Module) 1.0, ovšem v druhé generaci Intel přejde na provedení OAM 2.0, které dovoluje TDP zvýšit. Rialto Bridge tak bude mít TDP už 800 W. Toto zvyšování spotřeby nastává více méně napříč počítačovým průmyslem jak u CPU, tak i u GPU, takže samo o sobě to asi Intelu nelze vyčítat (aktuální Nvidia H100 má 700W TDP). Zájem je nahustit výkon do co nejmenšího prostoru, zatímco teplo bude řešit vodní chlazení.

V tomto případě ale vypadá poněkud zvláštně, že příkon stoupne prakticky o stejné procento jako výkon – u obojího zhruba o třetinu. Od nové generace s modernějším procesem by se přitom čekal nějaký pokrok v poměru spotřeby a výkonu. Asi to také potvrzuje, že Intel používá pořád stejnou architekturu jako v Ponte Vecchio.

HPC GPU Ponte Vecchio (Zdroj: CNET)

Bude každopádně zajímavé sledovat, jak velký úspěch tyto HPC akcelerátory budou mít. Jejich sofistikovaná stavba s velkou paměťovou propustností a kapacitami cache by mohla slibovat možná i unikátní schopnosti mezi výpočetními GPU. Ale zpoždění, které Intel nabírá (Ponte Vecchio několikrát pozdrželo uvedení amerického exascale superpočítače Aurora do provozu), by v kombinaci s relativně pomalým růstem výkonu mohly ambice zmařit. Rialto Bridge má sice být dostupné příští rok ve formě vzorků, ale to asi znamená, že reálné nasazení také bude až v roce 2024.

Falcon Shores: XPU

Intel ukázal také další pokračování, které tento hardware pro superpočítače bude mít. Je jím generace Falcon Shores, která má přijít v roce 2024, tedy rok po Rialto Bridge (ale asi to opět bude dostupnost vzorků s reálným hardwarem později).

Roadmapa HPC akcelerátorů a procesorů Intel ukázaná na ISC22 (Zdroj: Intel, via: AnandTech)

Falcon Shores už není GPU, ale XPU – má jít o sloučení výkonného GPU ve stylu Ponte Vecchio a Rialto Bridge s procesorem Xeon (vybaveného pamětí typu HBM) do jednoho celku. Podle Intelu to má přinést velké navýšení schopností. Kapacity pamětí i jejich propustnosti mají být pětinásobné a pětkrát lepší má být i hustota výpočetního výkonu a energetická efektivita (výkon na watt).

XPU by asi mělo vypadat tak, že se všechny GPU i CPU čiplety integrují do jednoho pouzdra se společnými propojujícími elementy, nebo dokonce s jedním společným „uncore“. AMD by tedy tomuto konceptu asi říkalo APU (a také dlouhodobě plánuje něco podobného). Tento celek se pak asi bude instalovat do socketu, který bude podobný socketům pro procesor, nebo s nimi dokonce společný.

Intel Falcon Shores bude první XPU integrující procesor a akcelerátor do jednoho (Zdroj: Intel)

Určitá nevýhoda je, že se sníží flexibilita v tom, jaký poměr GPU a CPU bude systém mít (dneska například můžete v serveru / PHC uzlu použít třeba dvě GPU a dvě CPU, nebo poměr 1:4, teoreticky dokonce i šest nebo osm GPU na jedno CPU). Intel by ale měl asi nabízet modely XPU s různými poměry GPU a CPU jader/čipletů a také se asi lze na věc dívat tak, že XPU je nikoliv CPU s GPU, ale spíše něco jako GPU s obslužnými procesorovými jádry přímo v sobě, takže poměr mezi CPU a GPU už není tak relevantní a jednoduše se budete rozhodovat mezi tím, kolik XPU se zapojí dohromady v jedné instanci serveru nebo HPC uzlu.

Tato integrace je zřejmě hlavní strategií Intelu v oblasti HPC. Zatímco u Rialto Bridge je vidět poněkud nemastný-neslaný nárůst výkonu, a nemusí být tedy moc atraktivní, tato budoucí integrace má zřejmě Intelu dodat klíčovou konkurenční výhodu a udělat z jeho HPC produktů skutečně silnou konkurenci proti Nvidii (a AMD). Ostatně v roadmapě Falcon Shores nahrazuje samostatná GPU, takže ta Intel podle všeho vidí jako mrtvou vývojovou linii, nebo lépe řečeno jen přechodné stadium předcházající XPU. Po příchodu XPU tedy už samostatná výpočetní GPU tohoto typu nebudou potřeba (což ale neznamená, že přestanou existovat méně brutální klasická GPU a grafické karty, bavíme se tu jen o nejvýkonnějších výpočetních GPU pro superpočítače a podobná nasazení).

Opět to lze asi shrnout tak, že bude zajímavé sledovat, jak se Intelu tyto plány podaří naplnit. V GPU se mu zatím až tak nedaří, nebo aspoň pořád jsme ve fázi, kdy ještě není jasné, že se mu vstup do tohoto trhu opravdu povedl. Ale protože má firma velmi silnou pozici v procesorech, na které může stavět, možná by se po nástupu XPU mohl Intel do této sféry protlačit přes ně. Bude to ale asi až věc roku 2025 a kdo ví, kde v té době bude konkurence a vůbec stav trhu.

Zdroje: AnandTech, Intel