Když v roce 2020 vydala Nvidia generaci GPU Ampere, speciální výpočetní verze A100 byla odhalena již na jaře. To znamená, že by se již mohla blížit nová generace architektury pro AI výpočty v serverech. Ta se jmenuje Hopper a nyní k ní opravdu začínají prosakovat nové zprávy. Vypadá to, že podoba této generace bude nakonec jiná, než se čekalo, Hopper nakonec nebude bodem, kdy Nvidia skočí do čipletových technologií.
Podle dřívějších zpráv mělo být GPU Hopper hodně přelomové, protože Nvidia měla plánovat ne klasickou monolitickou koncepci, kdy je všechno na jednom čipu, ale čipletové řešení (psali jsme o tom zde). To by znamenalo, že by akcelerátor měl například separátní IO nebo cache a výpočetní jednotky na odlišných kusech křemíku, jako je to u procesorů AMD Ryzen/Epyc, nebo byl tvořen z propojených dlaždice („tile“) jako procesory Intel Sapphire Rapids.
Vypadá to však, že tyto zprávy byly asi mylné. Velmi spolehlivý leaker Kopite7kimi nyní prozradil, že Hopper je ve skutečnosti pořád monolitický čip. To trošku omezí výkonnostní potenciál, ovšem zároveň má jít o rekordně velký čip, ještě rozměrnější, než stejně rekordní dřívější výpočetní GPU Nvidie. Podle tohoto zdroje má mít plochu „něco pod 1000 mm²“, což později trošku zkorigoval na plochu spíše zhruba 900 mm² a něco. Rozhodně ale má jít o výrazně větší plochu křemíku, než u GA100.
https://twitter.com/kopite7kimi/status/1487253688280240129
I když čip (asi nazvaný GH100) nebude mít 1000 mm², ale jenom třeba 920–940 mm², pořád jde o mnohem větší monolitický křemík, než jaký kdy existoval. Již dřívější GPU Volta (GV100) a Ampere (GA100) posunula hranice se svými rozměry přes 800 mm², což jim také dovolilo navýšit dál výkon.
Zhruba 800 mm² a něco se považovalo za maximum možného kvůli tzv. „reticle limitu“, což je maximální velikost, kterou jde vyrobit stávajícími fotolitografickými metodami. TSMC ale zřejmě Nvidii v tomto pomohlo a při vývoji nových procesů tyto limity trochu zvýšilo. Hopper má být vyrobený na 5nm procesu TSMC, což znamená, že z této plochy by měl vymáčknout hodně vysoké výkony při akceleraci neuronových sítí (což pravděpodobně opět bude jeho hlavní funkcí).
Je ovšem možné, že zatímco GPU není čipletové a je monolitické, Nvidia bude pro datacentra vyrábět akcelerátory, kde budou dvě tato GPU (nebo možná dokonce čtyři) osazená hned vedle sebe. Takto je to u Instinctu MI200 od AMD, který se sice označuje jako čipletový, ale ve skutečnosti jde jen o pouzdro s dvěma monolitickými GPU, která jsou jinak schopná fungovat samostatně. Dalo by se to tedy přirovnat spíše k Epycům první generace nebo Threadripperům 1000/2000.
U většiny serverových aplikací nebude asi problém paralelizovat úlohy na více GPU, takže pokud by se next-gen AI akcelerátor ve skutečnosti skládal ze dvou nebo čtyř GPU v jednom, nebyl by to problém. Nedávno prosáklo, že by Hopper měl mít enormní TDP, údajně přes 1000 W. To by asi docela sedělo u akcelerátoru složeného ze dvou nebo čtyř GPU. Smysl této koncentrace čipů do jednoho pouzdra by byl v tom, že server s patřičným chlazením (vodním) a napájením by mohl koncentrovat výpočetní výkon do menšího prostoru a provozovatel bude v servrovně potřebovat méně racků.
Zdroje: VideoCardz, Kopite7kimi (1, 2)