40 nm a grafické karty pro DirectX 11

27. 5. 2009

V posledních dnech mi jeden (obvykle velmi dobře informovaný) zdroj sdělil pár zajímavých faktů, v jejichž světle se celá stávající situace zdá být pesimističtější, než jak se doposud jevila. Pro zajímavost se to pokusím shrnout společně se všemi veřejně známými informacemi...

TSMC

40nm produkce má potíže, které se v poslední době zdají
být mnohem hlubší, než se zpočátku jevilo.
Jde totiž o kombinaci dvou faktorů - výtěžnosti obecně a power-leakage,
která se týká všech čipů vyráběných strained-SiGe technologií. To se týká 40nm
HP i G produkce, které měly být klíčové pro R800, G300 a poslední vlnu
DX10(.1) čipů (RV740 a GT21x). TSMC se ale primárně nezaměřuje na řešení těchto
problémů, ale maximum úsilí věnuje vývoji 28nm procesu. To poměrně jednoznačně
indikuje, že se bude snažit 40nm nahradit jak jen to půjde.

V poslední době se začíná mluvit i o možnosti
rozjetí 28nm výroby v Globalfoundries, což koresponduje se spoluprácí TSMC
s Nvidií na 28nm procesu. Pro ATi by to znamenalo výhodu v možnosti
výběru výrobce (volba lepších finančních podmínek i samotného procesu),
Globalfoundries by to přineslo zákazníka, Nvidia by též nebyla odkázána výhradně
na monopolistickou TSMC - a TSMC nezbude, než se více snažit, aby si
udržela maximum zákazníků.

Věřím,
že se situace s 40nm produkcí zlepší, ale stále na ní budou podepsané problémy,
které se předchozím generacím vyhnuly (vyšší spotřeba na vyšších frekvencích
nebo nižší výtěžnost).

Minislovníček

TSMC - tchajwanský výrobce složitých čipů. Vyrábí u něj například ATI
(AMD), Nvidia a další.
power-leakage - ztrátové teplo
strained-SiGe - technologie napnutého křemíku s příměsí germánia
HP - v tomto kontextu nikoli Hewlett-Packard, ale High
Performance
tape-out - konečná fáze návrhu integrovaného obvodu
launch - uvedení výrobku na trh
tesselator - specializovaná jednotka (část čipu) pro proces teselace.
Teselace je změnou trojúhelníkové sítě modelu, v praxi se používá pro
dosažení přirozenějších a organičtějších tvarů dopočítáním polygonů ve
správných místech
pixel shader - kód pracující s barvou pixelu
SP - stream procesory, univerzální (pixel i vertex, GPGPU) paralelně
pracující jednotky grafického jádra

ATI

O
R8xx je toho veřejně známo nejméně. Předpokládá se, že půjde o čip podobného
zaměření, jako RV770, tzn. plocha mezi 250-300 mm², 256bit sběrnice a rychlé
GDDR5 moduly. Neunikly zatím prakticky žádné informace, které by to potvrzovaly
nebo vyvracely, což je přinejmenším zajímavé. Minimálně tape-out se obvykle na
Taiwanu neutají. Ale zatím nic.

Tentokrát
se ale nemusíme omezovat na veřejně dostupné informace: RV870 by
v současné době již měla být hotová a podobně jako G300 jen více-méně
čekat na spuštění výroby.

Pokud
bychom se pustili do spekulací, měly by problémy s výtěžností a power-leakage
ovlivnit (menší) R800 méně, než (větší) G300, ale R800 vyvstává jiný problém -
rychlé paměti. Zatím netuším, jaký má ATi výkonnostní cíl, ale propustnost
paměťové sběrnice by mohla být brzdou. Prozatím se zdá, že v následujících
měsících nic rychlejšího, než 1100 (4400) MHz moduly, dostupného nebude.

Kdybychom extrapolovali z výkonu RV740, bylo by možné z 256bit sběrnice a současných
GDDR5 modulů dostat výkon až o 40-50% vyšší, než nabízí HD4890. S 1100MHz
moduly by se ATi možná mohla dostat blíže k těm 50% (či lehce nad), ale i tak
nejde o velký skok. Samozřejmě nevíme, jak na tom bude nová architektura s
efektivitou, případně jaký bude výpočetní výkon samotného čipu, či zda se
zlepší kompresní algoritmy, ale výkon výrazně nad 50% oproti stávající RV790 se
nejeví jako příliš pravděpodobný - pokud tedy zůstaneme u předpokladů

Ruby

Další
otázkou je, co se děje s RV740. Výtěžnost je nízká, ovšem PowerColor zpočátku
dodával pravidelně, karty ostatních značek (vyráběné u PCPartner/Sapphire) se
vracely výrobcům kvůli chybě v BIOSu, ale ani po několika týdnech se dostupnost
nezlepšila. Příčinou může být jak příliš vysoká poptávka, tak i fakt, že ATi
mohla většinu 40nm produkce vymezit pro R800, aby při nízké výtěžnosti vyráběla
dopředu a měla na launch dostatek čipů. Je to sice trochu divočejší spekulace,
ale za poslední rok jsme byli svědky tolika překvapivých scénářů, že je třeba
brát v potaz opravdu každou eventualitu.

V
krátkosti zmíním ještě jednu možnost, která se objevila po vydání RV770, ale o
které se již dál nemluvilo. Podle ní by R800 dosahoval zhruba 400mm², což je
minimum potřebné pro implementaci 512bit sběrnice, ale zároveň (na současné
poměry) nijak extrémní rozměr. Tuto teorii zatím žádná událost ani uniklá
informace nepodpořily a z hlediska současné krizové situace by pouze vedla k
záměně problémů - paměti by nebyly limitem, ale 100 mm² by negativně ovlivnilo
již tak kritickou výtěžnost. Je tedy nepravděpodobná.

Informace a spekulace o novém Radeonu (ať už se bude jmenovat nakonec jakkoli) jsou shrnuty na tomto místě diskuzního fóra:
RV870 - informace, spekulace, fakta, preview, recenze, ...

Nvidia

Pro
Nvidii mluví její systém vývoje - od G80 nevytvořila prakticky žádný
architektonicky nový čip, za poslední roky vydala pouze zmenšené verze starších
produktů, takže se mohla plně soustředit na vývoj nové generace. Trochu
zapomínám na GT212 (40nm verze GT200 s 256bit sběrnicí, GDDR5 a integrovaným
NVIO), který ale (zatím?) nevyšel. Důvodem je opět 40nm produkce, která pro čip
těchto rozměrů (zhruba 200 mm²) nevychází výhodněji, než 55nm produkce. Z toho
důvodu také Nvidia 40nm proces využívá především pro mobilní produkty, kde se
mírně snížená spotřeba pozitivně projeví výdrží baterie.

Problémem
samotné G300 je opět 40nm výroba umocněná velikostí čipu (kolem 500mm²).
Vzhledem k nižším základním frekvencím asi nebude problém ani tak
power-leakage, jako spíš výtěžnost. Komplikace by naopak neměly být s pamětmi -
i se současnými GDDR5 by měla být přenosová rychlost dostatečná pro dosažení
velmi dobrého výkonu (zhruba dvojnásobná na 1 čip oproti současným produktům).

Složitější
by to mohlo být s implementací nových technologií. Nový paměťový řadič, nový
proces, nové části čipu - např. tesselator. Existuje ale zajímavý názor, podle
kterého by tesselator (a některé další části potřebné pro DX11 kompatibilitu)
mohly být emulovány přes SPs (podobně už např. NV40/G70 neměla samostatné
texture addressing units, ale emulovaly je pixel shading ALUs, případně
G80-GT200 již nenese multifunkční interpolátory, ale opět jejich funkci emulují
SPs). Ačkoli lze jen těžko odhadovat, jak by se tento přístup projevil na
výkonu, usnadnilo by to vývoj a ušetřilo nějaké tranzistory.

Podle
poslední (ale v současné době nejzajímavější) informace Nvidia údajně zaslala
výrobcům grafických karet materiály, kde vysvětluje, že DX11 hardware zatím
není potřeba a ten stávající je více než dostačující. Obává se Nvidia, že by ji
ATi nebo Intel mohli s DX11 produktem předběhnout, případně že nebude mít G300
v době uvedení Windows 7? Zdá se to trochu paradoxní, protože ATi i Intel
taktéž mají problémy a zatím nic nenasvědčuje blízkému vydání nového hardwaru
jedné či druhé značky. Podle posledních informací by RV870 i G300 měly být
ve stejné fázi a čekat primárně na zlepšení situace v TSMC.

Pro
GT21x Nvidia hledá alternativní výrobní kapacity. Z odchodu tak velkého
zákazníka TSMC příliš radosti nemá, takže krom spolupráce na 28nm výroby by
Nvidia měla profitovat i ze zvýhodněných cen, které jí TSMC nabízí.

Poslední
informace se týká spotřeby G300. Za předpokladu, že Nvidia nezmění v tomto
ohledu svoji strategii, se bude spotřeba karty v zátěži pohybovat na
poměrně slušné úrovni - tzn. neměla by přesahovat současnou GT200 a
dokonce by měla být o pár wattů úspornější.

Informace a spekulace o G300 jsou shrnuty na tomto místě diskuzního fóra:
GT300 - informace, spekulace, fakta, preview, recenze, ...

Intel

Intel
od počátku vývoje Larrabee (dále LRB) odsouvá, zvyšuje množství výpočetních
jednotek a rozšiřuje programátorský tým (už loni pracovalo na ovladačích pro
LRB přes 300 programátorů) - z těchto kroků také příliš velká jistota nečiší.
Podle ATi i Nvidie nebude mít LRB výkonnostní převahu proti jejím produktům,
ale zřejmě bude flexibilnější.

Intel
netrápí problémy se 40nm procesem, ale zcela nová programovatelná architektura
postavená doslova na ničem (žádné předchozí zkušenosti), takže se může objevit
problémů víc než dost. Pro Intel by ale mohlo být zajímavé, pokud by se mu LRB
podařilo vydat dřív než ATi a Nvidii, protože pokud by měl jediné DX11 řešení
na trhu, byl by dočasně zcela bez konkurence, což by úspěch zajistilo. Zatím
tomu ale nic nenasvědčuje a jiné datum, než počátek roku 2010, stále nepadlo.

Nakonec
bych se ještě vrátil k využití LRB. Jedna z prvních spekulací
(a popravdě šlo o více než spekulaci - která se objevila v době
raného vývoje čipu a zveřejnění prvních specifikací poukazujících jak na x86
kompatibilní architekturu, tak možné využití pro grafické účely) se týkala
zacílení na herní konzole. Dávalo to smysl a skutečně - Intel se chtěl opět
vrátit do hry. Poslední významná konzole, na které se podílel, byl první Xbox.
Od té doby nedokázal nabídnout ani procesor, ani grafický produkt, který by se
mohl v tomto odvětví uplatnit.

LRB
to měl změnit, ale nestane se tak. Microsoft pro další generaci konzolí
uvažoval u grafickém výkonu, který je ale vysoko nad úrovní současné verze
čipu. Nemluvím o výkonnostním
rozdílu desítek procent, který by „nahnala" nová revize čipu na novějším
procesu, nebo navýšení počtu jednotek v jádře, ale jde zhruba o
trojnásobek toho, co nejvýkonnější varianta první generace LRB přinese. Pokud
vezmeme v potaz ještě potřebu procesorů, dostaly se odhady spotřeby zhruba
na desetinásobek současného Xbox 360, takže Microsoft návrh takové konzole
okamžitě smetl ze stolu.

Potřebu
procesorů doplňujících LRB jsem nezmínil omylem, ale skutečně tomu tak je. LRB
sice může (nejen) díky svojí x86 kompatibilitě suplovat úlohu CPU, ale
(a to je pro mě poměrně zklamáním) zdaleka se v těchto ohledech
nevyrovná produktům, které mají Intel a AMD na trhu již nyní. Mluvím o
výkonnostní stránce. Intel tedy nauvažuje ani o prodeji LRB v podobě
samostatných čipů pro univerzální použití - byly by zkrátka příliš pomalé (opět
mluvím o násobcích výkonu).

Oproti
CPU si LRB vede lépe především v paralelních výpočtech a raytracingu,
ale v případě raytracingu opět nejde o tak velký odskok oproti
současným procesorům, jaký je podle všeobecného povědomí očekáván. Nelze tedy
čekat, že by LRB přinesl grafickou revoluci a vlnu plynule běhajících
raytraced her ve vysokém rozlišení a s detaily překonávajícími současné
rasterizéry ATi a Nvidie. To je bohužel naprostá utopie.

Větší
šanci bude tato novinka mít jako klasický rasterizér - byť emulovaný.
Výkonnostně v době vydání rozhodně nepůjde o low-end, jak mnoho skeptiků
předpovídalo, ale čip by měl zapadnout do pomezí mainstreamu a performance
segmentu. To by Intelu mohlo zaručit úspěch, ovšem opět není situace tak
růžová, jak by se mohla zdát, protože ATi i Nvidii budou pro dosažení stejného
výkonu stačit menší (levnější) čipy. Záleží tedy pouze na Intelu, zda se
spokojí s nižšími maržemi, aby nabídl konkurenceschopný poměr cena/výkon,
nebo bude Larrabee nabízet za vyšší cenu, jako exkluzivní produkt.

Ve
světle těchto informací se zdá, že by LRB mohl skončit stejně jako předchozí
neúspěšné pokusy Intelu proniknout do grafického průmyslu. Věřím ale, že
tentokrát to Intel nevzdá. LRB (i bez konzolí) bude mít na trhu poměrně
široký rozsah záběru a ačkoli nepůjde o optimální grafickou kartu,
ani o optimální procesor, je jeho hlavním těžištěm profesionální sféra
a paralelní výpočty. Přestože tento tržní segment ještě není příliš velký,
má Intel dostatečný vliv na to, aby si ho „nafouknul" do potřebných rozměrů
a silné jméno na to, aby zákazníci uvěřili, že to myslí vážně.

Druhé
odvětví, na které se Intel hodlá zaměřit, spadá do grafického průmyslu a jde
o kombinaci rasterizace a raytracingu. Tato metoda by měla architektuře
LRB sedět nejvíce. Intel už začal s přípravami vlastního API, které by
mělo skloubit obě metody a umožnit reálné využití. Že jde o jeden
z možných směrů vývoje potvrzuje i obdobný přístup Nvidie, která také
o vlastním podobně zaměřeném API uvažuje.

Závěrem
nelze říct než to, že nás sice čeká poměrně nudné léto, které zpestří snad jen
další porce uniklých informací, ale nabitý podzim a zima. ATi by do konce roku
měla přijít s minimálně dvěma DX11 kompatibilními čipy (tzn. minimálně tři
produkty na trhu), Nvidii se snad opět podaří překonat slávu G80 - současné
produkty, které již nedokázaly vystoupit z jejího stínu, ani překročit
její technologickou výbavu, nahradí zajímavějším portfoliem - a Intel by se
mohl předvést po Vánocích.

Přečtěte si také:
Larrabee, revoluční GPU od Intelu (ExtraHardware)
Larrabee a herní fyzika (Intel, PDF)