Nvidia letos odhalila novou generaci svých GPU, či možná především AI akcelerátorů Blackwell, čímž zvedne výkon proti nyní prodávaným H100. Intel, který také o trh umělé inteligence usiluje, tomu bude kontrovat vlastní novou generací akcelerátorů, které teď představil: Gaudi 3. Ty budou dost podobné Blackwellu, také používají dva čiplety v jednom pouzdru.
Intel oficiálně odhalil akcelerátor Gaudi 3 na akci Vision 2024, kde také byly oznámeny procesory Meteor Lake-PS pro socket LGA 1851. Technologie AI akcelerátorů Gaudi pochází od firmy Habana, kterou Intel koupil v roce 2019, Gaudi 3 je v souladu s názvem její třetí generací.
Gaudi 3 je tvořený ze dvou čipletů či čipů, jde vlastně o symetrickou dvojici akcelerátorů v jednom pouzdru (byť asi koherentně propojených s propustností 12,8 TB/s). Každý je tvořen 32 TPC (Tensor Processing Core) a 4 MME (Matrix Match Engine) a obsahuje 48MB cache či pracovní paměť (jde o SRAM) a 4096bitové paměťové rozhraní pro externí paměť HBM2e. Celkem tedy akcelerátor disponuje 64 TPC, 8 MME a 96 MB paměti SRAM a 8192bitovým paměťovým rozhraním. Oba čipy mají přístup do paměti toho druhého a tváří se jako jedno zařízení.
Architektura Gaudi 3 by měla vycházet z Gaudi 2, který byl tvořený jediným čipem (plus HBM2), ale místo 7nm procesu je použitá 5nm výroba u TSMC.
Gaudi 3 bude vyráběný ve dvou verzích. HLB-325L je v mezaninovém provedení OAM (OpenCompute Project Accelerator Module) a HL-338 je dvouslotová karta PCIe. V provedení OAM má akcelerátor TDP celých 900 W a dosahuje výkonu 1835 TFLOPS při použití datového typu FP8. Tyto moduly je možné chladit vodou, ale i vzduchem.
Pro kartu PCIe se uvádí TDP 600 W a stejný výkon, nicméně zde to má být špičkový výkon. Vzhledem ke snížené spotřebě asi může být dostupný po omezenou dobu, zatímco u OAM verze je to základní či stabilní výkon (nebo je schopná boostovat na vyšší výkon, než je pro ni udávaný).
Obě verze jsou osazené 128 GB paměti HBM2e v celkem osmi pouzdrech s celkovou propustností 3,7 TB/s. Pro komunikaci s dalšími akcelerátory nebo CPU je použitý 200Gb/s Ethernet s RDMA, přičemž každý akcelerátor by měl obsahovat 24 těchto rozhraní.
V provedení OAM se počítá s osazením osmi modulů na jednu základní desku, u kartového provedení s osazením čtyř karet v jednom systému. Propojovací linky se však dají použít k postavení větších klastrů složených z více systémů. Maximum je až 1024 systémů s celkem 8192 akcelerátory Gaudi 3 (v provedení OAM).
Podle Intelu má Gaudi 3 být o 50 až 70 % výkonnější než Nvidia H100 při trénování neuronových sítí (pro nové B200 zatím srovnání není, tento akcelerátor také ještě není na trhu, dostupný má být koncem roku, ale ve větších množstvích možná až v roce 2025). Je třeba upozornit na to, že tyto výsledky se asi mohou velmi lišit podle toho, jaký software se měří.
Při inferenci je výkon údajně zhruba na úrovni H100, ale Gaudi 3 má údajně výhodu výrazně lepšího výkonu při použitý delších výstupních sekvencí. Akcelerátory Intelu by také údajně měly být levnějším řešením proti GPU Nvidie.
Reálně dostupné by akcelerátory Gaudi 3 měly být od třetího kvartálu letošního roku, kdy je bude možné koupit v různých serverech. Testovat a vyvíjet software pro ně bude také možné v rámci Intel Developer Cloudu. Jako první by měly být k dostání servery s OAM verzí akcelerátoru, karty PCI Express se začnou prodávat v Q4 2024.
Zdroje: Intel, Tom’s Hardware