Architektura a funkce nVidia GF100 (Fermi) odhaleny

18. 1. 2010

Sdílet

 Autor: Redakce

Novináři, kteří byli na CESu v Las Vegas měli příležitost seznámit se architekturou GF100 (Fermi) nejen po stránce GPGPU, ale především z toho pro většinu z nás asi zajímavějšího pohledu: 3D funkcionality. Povolení k publikaci dala Nvidia dnes a současně zveřejnila připravenou stránku pro GF100. Na ní pak najdete především dva PDF soubory, přičemž zajímavější je samozřejmě ten nový s oním pohledem na GF100 jako na grafický čip:

Společnost Nvidia se zalekla toho, co sama tlačením CUDA a představením nejdříve jen GPGPU architektury Fermi udělala, a nestačí všem zdůrazňovat, že dělá pořád hlavně a v prvé řadě grafické čipy pro hráče. O klíčových parametrech Fermi pro alespoň nějaké odhady výkonu v 3D hrách jsme se toho ale ani z dalšího poodhalení nedozvěděli mnoho:

Uspořádání a rozdělení jednotek v GF100 začíná po upřesnění dávat smysl i jako Direct3D 11 hardware a porovnat si rozdíly v pohledech na jednotky můžete snadno po vrácení se k článku:

Jádro Fermi při výrobě 40nm procesem o něco málo větší než 55nm GT200 a menší než 65nm varianta tohoto čipu. Fotografie 3 miliard tranzistorů vypadá nějak takto:

Když se jádro převleče do schématu podle funkcionality, zřetelně vidíte uspořádání do čtyř clusterů (GPC):

Každý cluster je dělen na další části, z nichž nejvíce prostoru požaduje také vždy čtyři SM (streaming multiprocesory). Na každý SM připadá 32 stream procesorů a jedna z hlavních novinek GF100: polymorph engine.

Zatímco o rasterizačních jednotkách nebylo asi mnoho nového co říci (změnilo se spíše jen dělení)...

... a stream procesory byly v podstatě známy už z GPGPU odhalení architektury Fermi,...

.. tak polymorfní jednotka se dá považovat za skutečnou inovaci. Podobně jako Nvidia už dříve oddělila doménů shaderů od zbytku jádra a přidělila jí vyšší taktovací frekvence, vyčleněním určitých vhodných částí/funkcí do tzv. PolyMorph engine mohli Kaliforňané zavést out-of-order provádění instrukcí.

Určitě jste si nemohli nevšimnout, že součástí každé polymorfní jednotky je i teselátor, tedy jednotka specializující se na změnu (zjemnění) trojúhelníkové sítě modelů.

Teselace je součástí specifikace DirectX 11 a konkurenční ATI si s ní pohrává už hodně dlouho. V Radeonech HD 5000 se pak teselátor dostal právě díky souznění s novým API Microsoftu konečně více ke slovu a nyní tedy i Nvidia začíná propagovat teselaci jako velkou výhodu pro vizuální vjem.

Teselaci bude Nvidia demonstrovat i na nových demech: Hair (vlasy) a hlavně Water (voda, v tomto případě moře). Pokud sledujete diskuzi o Fermi v našem fóru, asi jste viděli i videa.

Alespoň abstraktně se Nvidia pustila i do konkurenčního srovnání s Radeonem HD 5870 (Cypress XT). Co je myšleno přesně "DirectX 11 Application", to už se z PDF nedozvídáme.

Jednou ze změn, která s rasterizačními jednotkami přece jen souvisí, je nový režim anti-aliasingu. 32× AA ale znamená 32× CSAA, tedy 8 vzorků (multi-sample, Color/Z/stencil) a 24 tzv. coverage vzorků. Přínos Nvidia demonstruje na následujícím výřezu, výkonnostní dopad by měl být jen o 7 % vyšší než u 8× MSAA.

U anti-aliasingu se Nvidia pustila do srovnání s předchozí (nikoli DX10.1 ale DX10) generací- Detailů opět není zřejmě úmyslně sděleno mnoho:

K anti-aliasingu patří i jittered sampling, metoda, již bude možno využívat (snad v některých případech) pro boj s aliasem na okrajích stínů. Jako obrazový přípak Nvidia vybírá Canyon Flight z 3DMark06 (můžete tedy snadno srovnat s aktuálním stavem po spuštění na vašem PC). Metoda jitter (roztřesení, v tomto případě pozic subpixelů v mřížce) je známá i ze starších metod celoobrazovkového anti-aliasingu (FSAA). Jestli accelerated před slovem jittered v materiálech Nvidie znamená nějakou adaptivitu nebo jen lepší výkonnost, za tím jsem se zatím nepídil.

Poslední takovou věcí úzce spjatou se schématem čipu jsou cache a práce s pamětí. Právě úlohu cache Nvidia hodně vyzdvihuje a připomíná, že benefity mohou být dosaženy v celé grafické pipeline:

Společně s GF100 bude zřejmě uvedena i technologie 3D Vision surround kombinující to, už znáte díky ATI Eyefinity (hraní na zatím třech monitorech chovajících se jako jediná velká plocha) s 3D Vision (stereoskopické zobrazení díky renderingu dvou bufferů a různého zobrazení pro každé oko buď díky shutter glasses (zatmívacím brýlím) nebo brýlím polarizačním).

Pro plnobarevné 3D stereo je třeba kombinace shutter glasses a 120Hz monitoru, proto Nvidia ukazuje 3D Vision Surround na třech LCD od Aceru, prvních běžných panelech se 120 Hz a rozlišením 1920 × 1080 px (1080p, full HD, chcete-li).

No a poté, co Nvidia hrdě předvedla třímonitorové hraní a teselaci, zbývá ještě přijít s poslední disciplínou, která jí dříve určitě nebyla po chuti: raytracingem. Fotorealistické vykreslování metodou sledování paprsku je vhodné zejména pro lesklé materiály a Nvidia uvádí, že díky navýšení výkonu GPGPU bude GF100 v tomto násobně výkonnější než GT200. Jeden relativní graf Nvidia uvádí pro pathtracing, tedy metodu založenou na global illumination, a v něm je nějaká instance GF100 rychlejší přesně 4× než nějaká instance GT200.

bitcoin_skoleni

Ještě než se rozloučíme seznamem webů přítomných na Deep Dive (a tedy těch, kde byste snad měli najít články "z první ruky"), nezbývá si shrnout, co ještě vlastně potřebujeme o GF100 vědět: názvy a specikace (zejména pracovní frekvence) chystaných variant Fermi, jejich ceny, skutečný výkon v aktuálních hrách, spotřebu (dle přítomných na Deep Dive to má být více než u GT200, alespoň v zátěži) a reálnou dostupnost.

Autor článku