Instinct MI300X: AMD tvrdí, že má nejlepší akcelerátor pro generativní umělou inteligenci

15. 6. 2023

Výpočetní APU Instinct MI300A je modulární. AMD z něj udělalo také verzi se samými GPU čiplety a více než 300 CU. Mohl by vzniknout i procesor s pamětí HBM3.

AMD mělo včera velké odhalování produktů hlavně pro servery a podobné seriózní neherní účely. Už jsme psali o cloudových procesorech Epyc Bergamo, ve kterých přišla na trh architektura Zen 4c. Vedle nich AMD odhalilo také své zatím nejpokročilejší GPU a akcelerátor AI: Instinct MI300X. Ten je založený na architektuře CDNA 3 a jde o konkurenci k HPC GPU Intelu (Ponte Vecchio), ale také proti výpočetním GPU Nvidie.

Asi si vzpomenete, že na začátku roku jsme tu měli článek o Instinctu MI300, což je čipletový akcelerátor spojující výpočetní jednotky GPU s jádry AMD Zen 4. Nyní oznámený Instinct MI300X je odvozený design, který ukazuje pozoruhodnou pružnost návrhu. APU verze MI300 (ta se přesněji jmenuje Instinct MI300A) konkuruje kombinací CPU a GPU konceptu XPU od Intelu (ten sám ale jeho realizaci odložil na pozdější generaci). Ale nyní uváděný Instinct MI300X je čisté GPU.

Základem všech MI300 je dlaždicový design se čtyřmi 6nm interposery (respektive základovými dlaždicemi) vedle sebe, které tvoří čtvrtinu celého procesoru s dvěma připojenými pouzdry paměti HBM3. APU verze MI300 má tři z těchto kvadrantů osazeny 5nm výpočetními čiplety s jednotkami GPU architektury CDNA 3 (na každém kvadrantu jsou tyto čiplety dva, i tyto segmenty tedy používají čipletovou skladbu).

AMD Instinct MI300X

Autor: AMD

Na posledním jsou místo toho – u verze MI300A – jádra CPU. AMD nyní odhalilo, že jde o tři CPU čiplety (24 jader, 48 vláken) používané v Ryzenech 7000 a Epycích 9004. Jejich design je z velké části nezměněný, ale bylo nutné upravit spodní měděné vrstvy vodičů, aby měly správný rozměr kontaktních plošek pro osazení na interposer. Byl tedy nutný separátní tapeout této verze čipletu, ale náklady na vývoj nebyly tak velké jako u nového procesoru.

AMD Instinct MI300X

Autor: AMD

Nový akcelerátor MI300X dělá jednoduše to, že eliminuje tuto část s CPU čiplety a místo ní je i na uvolněnou pozici osazena další dvojice GPU čipletů. Výsledkem je komplet, který údajně obsahuje 153 miliard tranzistorů. Jeden GPU čiplet by měl mít 40 výpočetních jednotek (CU) z nichž je aktivních 38, zbylé dvě jsou do rezervy kvůli zachování výtěžnosti (lze použít i křemík s defektem). Celý akcelerátor MI300X by tedy měl mít 304 CU.

Jako paměť slouží akcelerátoru MI300X celkem osm pouzder paměti HBM3. Pro každý jsou použitá 24GB pouzdra s 12 vrstvami DRAM, takže celý akcelerátor má 192 GB paměti HBM3. Její propustnost je podle AMD 5,2 TB/s. V každém ze čtyř podkladových základních čipletů by měla být integrovaná také 64MB „MALL“ cache, které tedy GPU obsahuje dohromady 256 MB.

Celek bude mít velmi vysokou spotřebu, podle AMD má TDP být 750 W (čímž se ale nevymyká proti konkurenci, Nvidia H100 v takovémto mezaninovém formátu má TDP 700 W).

AMD Instinct MI300X se bude osazovat v počtu osmi kusů k dvěma procesorům Epyc

Autor: AMD

Instinct MI300X je podle AMD nejpokročilejším akcelerátorem pro trénování a inferenci generativní AI a velké jazykové modely – AMD uvádí, že modely jako Falcon-40 a Falcon-40B mohou díky 192GB paměti běžet na jediném GPU. V této schopnosti by akcelerátor mohl být napřed před Nvidií. Ta sice na jaře oznámila akcelerátor Nvidia H100 NVL se 188GB pamětí, to je ale ve skutečnosti dvojice běžných akcelerátorů H100 s 96GB pamětí, propojených NVLinkem. Řešení AMD sice pořád není jedním monolitickým křemíkem, ale propojení mezi čiplety je více těsné a pravděpodobně výkonnější, takže MI300X by měl být monolitickému GPU výrazně blíže než Nvidia H100 NVL.

Je tak možné provozovat větší AI modely. Toto by mohla být pro akcelerátor AMD vlastnost, dávající mu unikátní výhodu proti GPU od Nvidie, které mají na své straně silnější softwarový ekosystém a setrvačnost (pravděpodobně také pokročilejší samotné výpočetní jednotky).

Verze MI300A díky vlastním jádrům CPU funguje jako samostatná jednotka (takto bude používáno v superpočítačích). Instinct MI300X sice používá stejný socket LGA a chladič, ale v serverech či výpočetních nodech se bude připojovat k hostitelskému procesoru. Standardně by to měla být konfigurace se dvěma procesory Epyc 9004 a osmi GPU Instinct MI300X. Vše bude propojeno koherentně pomocí logiky Infinity Fabric, která má celkovou propustnost až 896 GB/s.

Vzorek procesoru AMD Instinct MI300A

Autor: ServeTheHome

Hlavními zákazníky, o které se AMD uchází, jsou zřejmě velké hyperscale společnosti (což sedí k tomu, že jde o akcelerátor v mezaninovém provedení Open Accelerator Module, takže je vyžadována speciální deska). Vzorky Instinctu MI300X mají těmto zákazníkům být dodávány v třetím kvartálu roku. Naproti tomu vzorky APU verze Instinct MI300A již klienti mají v rukou. Ta bude používána hlavně v HPC a superpočítačích – například americkém exascale systému El Capitan.

Epycy s HBM3?

Mimochodem – tento modulární design údajně také umožňuje nahradit naopak dlaždice s GPU čiplety dlaždicemi s CPU čiplety, které se vejdou tři na každý kvadrant. Tím vznikne procesor, který má 12 CPU čipletů a 96 jader, což je stejné jako u standardního Epyců 9004. Rozdíl je ale v tom, že výsledek používá jiný socket a místo pamětí DDR5 má stejné paměti HBM3 s vysokou propustností jako MI300A a MI300X. Jejich kapacita by mohla být 128 GB nebo 192 GB.

Zatím ovšem není jasné, zda o takovouto formu procesoru Epyc s pamětí HBM3 bude na trhu zájem. Je možné, že tato varianta (označovat by se zřejmě měla MI300C) nakonec nebude komerčně vyráběná.

Zdroj: SemiAnalysis, AMD, AnandTech

Vstoupit do diskuse (2 názory)

Jan Olšan

Témata:

Hejty byli hlavně na malou VRAM. Kterou nV dala raději do AI.

Sing

Sdílet

Epycy s HBM3?

Autor článku

Jan Olšan

Témata:

Nejnovější

Anketa

Nakupujete u čínských prodejců?

Témata

Návody a tipy

Jak na Netflixu najít perfektní film během pár sekund? Tajnou zkratkou jsou skryté kódy ve vyhledávání

Usínáte pravidelně u YouTube? Nová funkce vám ušetří peníze za elektřinu

Jak vložit elektronický podpis do PDF dokumentu? Jde to snadno a zdarma

Jak zjistit heslo Wi-Fi sítě, ke které jste připojeni? Na počítači s Windows nebo na smartphonu snadno

Šest nejlepších vychytávek od Mapy.cz. Znáte je všechny?

Intel končí s plány na x86S, navrací se ke standardní x86, Qualcomm vyhrál dílčí bitvu o ARM

Evropský Starlink se rozjíždí, Rusko zase testovalo odpojení od internetu, ruské zneužití softwaru…

Reklama přímo v systému televize? Kdyby nešla vypnout, koleduje si Philips o problém

OSA chce 90 Kč z každého chytrého telefonu, Nejvyšší soud souhlasí

Češi vyslali svařovacího robota do vesmíru a brzy to zkusí znovu. Připravují se však na víc

Tuzemské cestovní náhrady v roce 2025

Zálohování s Baculou: otevřený systém pro komplexní scénáře

Krátké vlny: Priority polského předsednictví a útoky na cloudovou infrastrukturu

Přinášíme souhrn příběhů podnikatelů roku 2024. Inspirujte se jejich nadšením

Instinct MI300X: AMD tvrdí, že má nejlepší akcelerátor pro generativní umělou inteligenci

Sdílet

Epycy s HBM3?

Autor článku

Anketa

Nakupujete u čínských prodejců?

Kvíz týdne

Návody a tipy

Z našich webů

Intel končí s plány na x86S, navrací se ke standardní x86, Qualcomm vyhrál dílčí bitvu o ARM

Evropský Starlink se rozjíždí, Rusko zase testovalo odpojení od internetu, ruské zneužití softwaru…

Reklama přímo v systému televize? Kdyby nešla vypnout, koleduje si Philips o problém

OSA chce 90 Kč z každého chytrého telefonu, Nejvyšší soud souhlasí

Češi vyslali svařovacího robota do vesmíru a brzy to zkusí znovu. Připravují se však na víc

Tuzemské cestovní náhrady v roce 2025

Zálohování s Baculou: otevřený systém pro komplexní scénáře

Krátké vlny: Priority polského předsednictví a útoky na cloudovou infrastrukturu

Přinášíme souhrn příběhů podnikatelů roku 2024. Inspirujte se jejich nadšením

Dále u nás najdete

Let's Encrypt příští rok nabídne certifikáty jen na šest dnů

Simona Kijonková: Dívala jsem se na investice za 1,4 miliardy

Lékaři chtějí po lidech pokutu, když objednaný pacient nedorazí

Neplaťte si IT kurzy sami, využijte dotace od EU

Vánoce v minulosti: Oplzlé koledy, bujaré veselí a na večeři hrachová kaše.

Outlook, jak ho známe, končí. Co ho nahradí a kdy?

Raspberry Pi má nový počítač v klávesnici a monitor

Technologické trendy, které se v roce 2025 nestanou

I diabetici si mohou dát cukroví. Místo piva však raději střik

Změna komunikace Petra Fialy se nepovedla, je v ní vidět křečovitost

Díky aplikaci placené pojišťovnou se povedlo objevit devět melanomů

Vytvořil Google první použitelný kvantový počítač?

Adventní půst byl duchovní záležitostí. Teď se drží kvůli očistě

Nedostatečné zabezpečení koncových zařízení ohrožuje firmy

OSA chce vybírat poplatky z dovezených telefonů

Šťastné a veselé, globální výdaje na IT vzrostou bezmála o desetinu

Poslední složenky za lékové doplatky přijdou zkraje příštího roku

Češi mají aplikaci, která propojuje lidi podle společných koníčků

Hranolky, pizza, tatarák: příběhy pokrmů jsou často vymyšlené

Reklama přímo v systému televize: Co kdyby nešla vypnout?