Nová generace GPU Nvidia má problém. Chyba v návrhu si vyžádá revizi, vydání se opozdí

5. 8. 2024

Sdílet

Nvidia GB200 Grace Blackwell Superchip Autor: Nvidia
Nvidia GB200 Grace Blackwell Superchip
Nvidia musí opravit chybu v návrhu jednoho z čipů tvořících nové GPU pro umělou inteligenci, dostupnost pro zákazníky se asi posune z konce letoška až do roku 2025.

Intel má teď široce probíraný průšvih s vrozeným degradováním procesorů Core 13. a 14. generace, AMD muselo na poslední chvíli pozdržet vydání Ryzenů 9000 kvůli nezveřejněným problémům odchyceným při expedici prvních sérií. Zdá se, že svoje potíže teď bude mít i Nvidia. Té se zase zadrhává plán na vydání nové generace výpočetních GPU s architekturou Blackwell, která má problémy a nebude moci být vydaná v termínu.

Nvidia akcelerátory s architekturou Blackwell oznámila už na jaře, ale je třeba mít na paměti, že zatímco herní grafiky bývají oznámené prakticky až v momentě, kdy jdou na trh, tato GPU pro servery firma uvádí „papírově“ ve velkém předstihu. Akcelerátory Nvidia B200 založené na Blackwellu měly původně jít k zákazníkům v posledním kvartálu roku 2024 a někdy nyní by teprve měly být k dispozici vzorky. Přitom se objevovaly zprávy, že ve skutečnosti letos bude dodáno jen malé množství kusů, a reálně tedy Blackwell bude hrát roli až příští rok.

Nicméně podle aktuálních zpráv se Nvidii plán zpozdil ještě víc a Blackwell letos asi prakticky moc k mání nebude, dostupnost se patrně posune do prvního kvartálu příštího roku. Údajně by mohlo jít o zpoždění minimálně o tři měsíce a důvodem tohoto odkladu je chyba v návrhu GPU GB200, na kterém jsou AI akcelerátory Blackwell založené. Nvidia toto zpoždění už oznámila velkým zákazníkům, kteří na objednaná GPU čekají, jmenovitě to měl být Microsoft (a nejspíš i další, ale z Microsoftu se tato informace dostala ven).

Nvidia uvádí B200: nejdrsnější AI GPU, které kdy měla, dvakrát větší než předchozí špička Přečtěte si také:

Nvidia uvádí B200: nejdrsnější AI GPU, které kdy měla, dvakrát větší než předchozí špička

Nvidia si za jednu AI „grafiku“ Blackwell pro datacentra řekne přes milion korun Přečtěte si také:

Nvidia si za jednu AI „grafiku“ Blackwell pro datacentra řekne přes milion korun

Nalezený problém bude potřebovat k řešení nějaké změny v čipu. O věci přinesl zprávy web The Information údajně na základě informací od dvou zdrojů z okolí vývoje samotného GPU a souvisejícího serverového hardwaru a také Data Center Dynamics. Údaj o zpoždění o „tři měsíce nebo více“ patrně vychází z obvyklé doby, kterou vyžaduje provedení revize čipu a její zavedení do výroby. Nemusí to přímo odpovídat konkrétnímu harmonogramu, který má Nvidia pro řešení problému naplánovaný.

Chyba není ve výpočetním čipletu, ale v „podložkách“

Podle Data Center Dynamics problém odhalilo TSMC, kde Nvidia čipy vyrábí, a netýká se přímo samotného 4nm křemíku, který tvoří srdce GPU GB200, ale na první pohled méně důležité části – křemíkového interposeru či můstků pod ním. Nvidia totiž v generaci Blackwell zvýší výkon tím, že celé GPU vytvoří ze dvou velkých 4nm křemíků, které právě potřebují propojení dalším čipem. Ten je poměrně jednoduchý a levnější (vyrábí se starším procesem), ale pokud jsou s ním problémy, znefunkční to celé pokročilé GPU.

Nvidia B200 Blackwell

Nvidia B200 Blackwell

Autor: Nvidia

Je možné, že interposer například selhává vlivem vysokých spotřeb celého GPU a s tím souvisejícím tepelným namáháním (případně tlakem chladiče po velké ploše). Také ale není vyloučeno, že jde o regulérní chyby v jeho návrhu, byť se také mohou týkat například nedostatečného dimenzování vodičů pro napájení, a ne nějakých logických chyb.

Nvidia prý zvažuje, že by problémy překlenula tím, že uvede dříve verzi Blackwellu, která používá jenom jeden z čipletů. Ta by logicky měla nižší výkon, ale pokud má firma takový design už připravený, mohla by ho vydat před dostupností výkonnější dvojčipové (či dvojčipletové) verze.

To, že je na vině interposer, je dobrá zpráva pro přicházející grafiky GeForce RTX 5000, které budou založené na architektuře Blackwell. Herní čipy by měly být monolitické, a tudíž by se jich chyba návrhu a zpoždění týkající se interposeru neměly týkat.

Specifikace GPU Nvidia Blackwell: Nové GeForce budou pokrok v highendu, ale levnější karty stagnace? Přečtěte si také:

Specifikace GPU Nvidia Blackwell: Nové GeForce budou pokrok v highendu, ale levnější karty stagnace?

Na rozdíl od Intelu zde ale asi nehrozí, že by tyto potíže (vedoucí asi jen ke zpoždění a žádným trvalým problémům se samotným produktem) Nvidii nějak významně poškodily. Firma má velmi silnou poptávku již po předchozí generaci akcelerátorů Hopper (H100, Grace Hopper), které může prodávat místo Blackwellu, maximálně to třeba povede k jen o něco sníženým tržbám.

bitcoin školení listopad 24

Pro Nvidii by bylo velký problém jen to, kdyby jí najednou konkurenti převzali velká procenta tržního podílu (k čemuž asi toto zaškobrtnutí neposkytne nějakou velkou příležitost). Nebo pokud by se ukázalo, že současný boom AI je bublinou a místo dalšího explozivního růstu by přišlo vystřízlivění. I v takovém případě by ale asi Nvidia odešla z pole v lepším stavu než konkurenti, protože už se jí z tohoto trhu podařilo vytáhnout mnohamiliardové zisky a v minusu by pro ni investice do vývoje AI akcelerátorů neskončily.

Zdroje: TechPowerUp, VideoCardz, Bloomberg