Nvidia vydává verzi výpočetního GPU A100 „Ampere“ do slotu PCI Express 4.0 ×16

22. 6. 2020

Po odhalení GPU Ampere A100 teď Nvidia vydala verzi pro klasický slot PCI Express 4.0 ×16. Má TDP 250 W a výkon je prý až 90 % proprietární verze SXM4.

Herní grafiky Ampere od Nvidie, jejichž první exemplář možná unikl o víkendu, jsou zatím asi pořád pár měsíců vzdálené. Ale Nvidia teď vypouští na trh první výpočetní kartu s touto architekturou do PCI Expressu.

Když totiž představila akcelerátor A100 minulý měsíc, byla to nejprve jen verze v tzv. mezaninovém modulu SXM4. Teď se k ní ovšem přidává první Ampere, který je vyrobený jako klasická karta do slotu PCI Express: Nvidia A100 PCIe.

Nvidia A100 PCIe

Je to ovšem stále karta výpočetní pro servery: dvouslotový adaptér s pasivním chladičem skrz kartu (který ochlazuje vzduch hnaný skrz skříň výkonnými ventilátory, které mívají až 15 000 RPM). Mělo by jít zároveň i o první GPU Nvidie, které takto v běžném slotu využívá PCI Express 4.0.

Použité je stejné 826 mm² GPU GA100, které Nvidia odhalila v květnu, vyráběné na 7nm procesoru TSMC (technologie N7). PCIe verze ho má opatřené rovněž 40 GB paměti HBM2 (tedy s 5120bitovou sběrnicí a pěti pouzdry, propustnost je 1555 GB/s). GPU má aktivních 6912 shaderů z celkových 8192. Tensor jader je 432. Čip je tedy ořezán stejně jako v mezaninové verzi, není omezen víc.

Takty boostu by měly asi být stejné (1410 MHz?) a podle Nvidie má špičkový výkon být stejně vysoký jako u verze SXM4 – firma uvádí, že až 20× lepší než Tesla V100 s čipem Volta. V trénování neuronových sítí (tedy maticových operacích) na tensor jádrech s přesností FP32 má být dosahováno až 312 TFLOPS, při inferenci s přesností INT8 až 1,248 TOPS. Tato uváděná čísla jsou ale s využitím techniky Structured Sparsity, kdy se část výpočtů přeskakuje. Reálný výpočetní výkon by měl být poloviční.

Specifikace karty Nvidia A100 PCIe

Výkon ve vědeckých výpočtech s dvojitou přesností FP64 má méně výrazný nárůst, jen na 2,5× (19,5 TFLOPS). Toto je ale zase pro změnu se započítáním softwarové techniky, kdy si GPU pomáhá v FP64 výpočtech maticových operací použitím tensor jader, jejichž přesnost je nižší. Reálný hrubý výkon obecných jednotek, které jsou nativně FP64, má podle běžných měřítek tato konfigurace mít „jen“ 9,7 TFLOPS (toto stejně tak platí i pro verzi SXM4).

Stejný špičkový výkon, ale nižší udržitelný

Ale tato čísla stejná jako u SXM4 verze budou asi platit jen krátkodobě v boostu, dlouhodobé vytížení bude dosahavt výkon nižší. Verze pro slot PCI Express má totiž TDP jen 250 W, zatímco SXM4 rovnou 400 W. Po vyčerpání rezervy chladiče se tedy budou takty muset snížit. Jak výrazně, to bude záležet na úloze.

Nvidia ve specifikacích uvádí, že tato 250W verze má mít 90 % výkonu té 400W. Ale dost možná je to „až“ údaj platný spíš pro nějaké příznivější situace. Je možné, že ve více výhřevných úlohách mohlo by se výkon mohl zhoršit i víc, třeba o 20 až 30 %, ale to by samozřejmě ukázaly jenom konkrétní testy.

U této karty bude proti mezaninovému GPU nevýhoda v tom, že je omezeno škálování a propojitelnost více karet přes NVLink. Místo třeba osmi GPU bude verze PCIe možné propojit jen v párech, a to pomocí NVLinkového můstku. Komunikaci více karet už bude muset běžet po PCI Expressu.

Nvidia A100 GPU Ampere GA100 v provedeni SXM4 1600

Nvidia A100. GPU Ampere GA100 v provedení SXM4 (vizualizace)

Verze akcelerátory A100 pro slot PCI Express ×16 má ale tu výhodu, že ji lze používat ve velké škále serverů (nebo dokonce pracovních stanic) se standardními deskami a skříněmi. Oproti tomu moduly SXM4 se svým proprietárním rozhraním potřebují speciální propojovací desku HGX (kterou zdá se přímo vyrábí a prodává Nvidia sama, což je pro ní další zdroj tržeb/zisku). To asi obvykle vyjde dráž a takové šasi je pak také nepoužitelné pro jakékoliv jiné akcelerátory než GPU od Nvidie.

Nvidia uvádí, že tyto karty budou nabízené ve více něž 50 modelech serverů a 30 z nich by se mělo prodávat ještě toto léto. Samotné karty by tedy měly brzo (ne-li hned) být reálně fyzicky dostupné.