Architektura a funkce nVidia GF100 (Fermi) odhaleny

18. 1. 2010

Sdílet

 Autor: Redakce

Novináři, kteří byli na CESu v Las Vegas měli příležitost seznámit se architekturou GF100 (Fermi) nejen po stránce GPGPU, ale především z toho pro většinu z nás asi zajímavějšího pohledu: 3D funkcionality. Povolení k publikaci dala Nvidia dnes a současně zveřejnila připravenou stránku pro GF100. Na ní pak najdete především dva PDF soubory, přičemž zajímavější je samozřejmě ten nový s oním pohledem na GF100 jako na grafický čip:

Společnost Nvidia se zalekla toho, co sama tlačením CUDA a představením nejdříve jen GPGPU architektury Fermi udělala, a nestačí všem zdůrazňovat, že dělá pořád hlavně a v prvé řadě grafické čipy pro hráče. O klíčových parametrech Fermi pro alespoň nějaké odhady výkonu v 3D hrách jsme se toho ale ani z dalšího poodhalení nedozvěděli mnoho:

Uspořádání a rozdělení jednotek v GF100 začíná po upřesnění dávat smysl i jako Direct3D 11 hardware a porovnat si rozdíly v pohledech na jednotky můžete snadno po vrácení se k článku:

Jádro Fermi při výrobě 40nm procesem o něco málo větší než 55nm GT200 a menší než 65nm varianta tohoto čipu. Fotografie 3 miliard tranzistorů vypadá nějak takto:

Když se jádro převleče do schématu podle funkcionality, zřetelně vidíte uspořádání do čtyř clusterů (GPC):

Každý cluster je dělen na další části, z nichž nejvíce prostoru požaduje také vždy čtyři SM (streaming multiprocesory). Na každý SM připadá 32 stream procesorů a jedna z hlavních novinek GF100: polymorph engine.

Zatímco o rasterizačních jednotkách nebylo asi mnoho nového co říci (změnilo se spíše jen dělení)...

... a stream procesory byly v podstatě známy už z GPGPU odhalení architektury Fermi,...

.. tak polymorfní jednotka se dá považovat za skutečnou inovaci. Podobně jako Nvidia už dříve oddělila doménů shaderů od zbytku jádra a přidělila jí vyšší taktovací frekvence, vyčleněním určitých vhodných částí/funkcí do tzv. PolyMorph engine mohli Kaliforňané zavést out-of-order provádění instrukcí.

Určitě jste si nemohli nevšimnout, že součástí každé polymorfní jednotky je i teselátor, tedy jednotka specializující se na změnu (zjemnění) trojúhelníkové sítě modelů.

Teselace je součástí specifikace DirectX 11 a konkurenční ATI si s ní pohrává už hodně dlouho. V Radeonech HD 5000 se pak teselátor dostal právě díky souznění s novým API Microsoftu konečně více ke slovu a nyní tedy i Nvidia začíná propagovat teselaci jako velkou výhodu pro vizuální vjem.

Teselaci bude Nvidia demonstrovat i na nových demech: Hair (vlasy) a hlavně Water (voda, v tomto případě moře). Pokud sledujete diskuzi o Fermi v našem fóru, asi jste viděli i videa.

Alespoň abstraktně se Nvidia pustila i do konkurenčního srovnání s Radeonem HD 5870 (Cypress XT). Co je myšleno přesně "DirectX 11 Application", to už se z PDF nedozvídáme.

Jednou ze změn, která s rasterizačními jednotkami přece jen souvisí, je nový režim anti-aliasingu. 32× AA ale znamená 32× CSAA, tedy 8 vzorků (multi-sample, Color/Z/stencil) a 24 tzv. coverage vzorků. Přínos Nvidia demonstruje na následujícím výřezu, výkonnostní dopad by měl být jen o 7 % vyšší než u 8× MSAA.

U anti-aliasingu se Nvidia pustila do srovnání s předchozí (nikoli DX10.1 ale DX10) generací- Detailů opět není zřejmě úmyslně sděleno mnoho:

K anti-aliasingu patří i jittered sampling, metoda, již bude možno využívat (snad v některých případech) pro boj s aliasem na okrajích stínů. Jako obrazový přípak Nvidia vybírá Canyon Flight z 3DMark06 (můžete tedy snadno srovnat s aktuálním stavem po spuštění na vašem PC). Metoda jitter (roztřesení, v tomto případě pozic subpixelů v mřížce) je známá i ze starších metod celoobrazovkového anti-aliasingu (FSAA). Jestli accelerated před slovem jittered v materiálech Nvidie znamená nějakou adaptivitu nebo jen lepší výkonnost, za tím jsem se zatím nepídil.

Poslední takovou věcí úzce spjatou se schématem čipu jsou cache a práce s pamětí. Právě úlohu cache Nvidia hodně vyzdvihuje a připomíná, že benefity mohou být dosaženy v celé grafické pipeline:

Společně s GF100 bude zřejmě uvedena i technologie 3D Vision surround kombinující to, už znáte díky ATI Eyefinity (hraní na zatím třech monitorech chovajících se jako jediná velká plocha) s 3D Vision (stereoskopické zobrazení díky renderingu dvou bufferů a různého zobrazení pro každé oko buď díky shutter glasses (zatmívacím brýlím) nebo brýlím polarizačním).

Pro plnobarevné 3D stereo je třeba kombinace shutter glasses a 120Hz monitoru, proto Nvidia ukazuje 3D Vision Surround na třech LCD od Aceru, prvních běžných panelech se 120 Hz a rozlišením 1920 × 1080 px (1080p, full HD, chcete-li).

No a poté, co Nvidia hrdě předvedla třímonitorové hraní a teselaci, zbývá ještě přijít s poslední disciplínou, která jí dříve určitě nebyla po chuti: raytracingem. Fotorealistické vykreslování metodou sledování paprsku je vhodné zejména pro lesklé materiály a Nvidia uvádí, že díky navýšení výkonu GPGPU bude GF100 v tomto násobně výkonnější než GT200. Jeden relativní graf Nvidia uvádí pro pathtracing, tedy metodu založenou na global illumination, a v něm je nějaká instance GF100 rychlejší přesně 4× než nějaká instance GT200.

ICTS24

Ještě než se rozloučíme seznamem webů přítomných na Deep Dive (a tedy těch, kde byste snad měli najít články "z první ruky"), nezbývá si shrnout, co ještě vlastně potřebujeme o GF100 vědět: názvy a specikace (zejména pracovní frekvence) chystaných variant Fermi, jejich ceny, skutečný výkon v aktuálních hrách, spotřebu (dle přítomných na Deep Dive to má být více než u GT200, alespoň v zátěži) a reálnou dostupnost.

Autor článku