Nové střípky o Radeonech HD 4800

8. 6. 2008

Sdílet

 Autor: Redakce

Velké schizma

Když jsem 15. května sepisoval Spekulativní preview Radeonů HD 4800, mnoho informací o nových kartách bylo ještě velmi mlhavých a v některých ohledech byl tedy článek poněkud neurčitý, přestože jsem nyní při jeho letmém pročtení našel pouze jedno tvrzení, ve kterém jsem se zřejmě mýlil. Ale je spousta toho, co nyní mohu upřesnit.

480, nebo 800?

Počet stream processorů je jedna z nejdůležitějších specifikací grafického čipu a v případě RV770 velká záhada. O těchto číslech se mluvilo už od počátku, jako pravděpodobnější se dlouho jevilo číslo první. Do dnešního dne ale vykrystalizovaly dvě teorie, obě zakládající se na střípku, že teoretický výpočetní výkon RV770 dosáhne hranice 1 TFLOPS. O těchto dvou variantách jsem se stručně zmínil už v diskuzi pod spekulativním preview GeForce GTX 260/280.

První teorie se drží 96 5D jednotek a tedy 480 stream processorů, které by ale běžely na vyšším taktu, než zbytek čipu, konkrétně 1050 MHz. 480 × 1050 × 2 = 1008 GFLOPS. Tuto verzi podpírá dokument od AMD, který zveřejnil server Hardware-Infos.de a který vidíte výše. Také Vijay Pande, hlavní vývojář Folding@home, na fóru projektu napsal, že se při vývoji myslí i na nové hardware a zmínil 480 stream processorů. O taktech sice pomlčel, ale teorii o 480 SPs přidala na věrohodnosti i skutečnost, že jakmile si jeho příspěvku všimlo více lidí, část týkající se specifikací byla odstraněna.

Proti dokumentu z Hardware-Infos naopak mluví tvrzení znalých uživatelů Beyond3D fóra, podle nichž architektura R6xx (ze které vychází i RV770) neumožňuje, aby shadery běžely asynchronně vůči zbytku jádra. A nově také další dokument s logem AMD.

Tento zveřejnil server NordicHardware a de facto způsobil přelom v obecném povědomí o RV770. Teorie o 800 stream processorech a nižším taktu, kterou na Beyond3D fóru tvrdohlavě prosazoval Arun Demeure (nutno poznamenat, že prakticky zcela sám), najednou začala vypadat věrohodně. Výpočet, jakým by se v tomto případě došlo k 1 TFLOPS, vidíte v tabulce: 800 × 625 × 2 = 1000 GFLOPS, a to prosím u pomalejší varianty.

Byli bychom však bláhoví, kdybychom přehlíželi nedostatky, které tato verze má. Za prvé, aby takový čip nebyl pomalejší, než RV670, je potřeba zvýšit počet texturovacích jednotek, hezké číslo by v tomto případě bylo 32. Byl by tak zachován trend zvyšujícího se podílu shaderů ku texturovacím jednotkám, ten by oproti RV670 vzrostl ze 4:1 na 5:1. Texturovací jednotky ale zabírají daleko více tranzistorů, než výpočetní jednotky (ALUs) a naskýtá se tak otázka, zdali je možné, aby se takto velký čip (o 150 % více ALUs, o 100 % více TUs) vešel do plochy jen o 30 % větší, než zabírá RV670. Ostatně, plocha 250-255 mm2 je u RV770 prakticky jistá – fotky přece nelžou.

Doplněno: Fotky nelžou, ale lidé se mohou mýlit. Wirmish z Beyond3D fóra, který ve Photoshopu vytvořil srovnání ploch čipů, si napoprvé neuvědomil, že RV670 nemá čtvercový půdorys. Nově odhadnutá velikost RV770 je tedy 276 mm2.

Další argument proti teorii o čipu s 800 SPs a 32 TUs je pravidlo, kterého se ATi dlouhá léta držela: žádný high-endový čip nebyl taktován pomaleji, než jeho předchůdce. Ale pravidla se mohou měnit a ani další výše popsané problémy nejsou neřešitelné.

Nemožné skutečností?

Jak bylo řečeno už v předchozí kapitole, zdá se velmi nereálné, že by ATi dokázala vtěsnat 160 5D výpočetních jednotek a 32 texturovacích jednotek do čipu jen o 30 % většího, než RV670 s 64 shadery a 16 TUs. Zdání ale může klamat a nejinak tomu možná je i v tomto případě.

Škálování aneb výkon versus tranzistory

Jakýmsi rukojmím teorie o 800 SPs se stal čip RV630. Ten má pouze 120 stream processorů, 8 texturovacích jednotek a 128bitovou paměťovou sběrnici a obsahuje 390 milionů tranzistorů. RV670, který má tranzistorů ďábelských 666 milionů (+70 %), disponuje 320 SPs (+260 %), 16 texturovacími jednotkami (+100 %) a dvojnásobně širokou paměťovou sběrnicí a interním ring-busem (+100 %). Je tedy zřejmé, že čím více jednotek jádro architektury R6xx nese, tím je poměr výkonu ku počtu tranzistorů příznivější.

Stačilo by to ale pro naši hypotetickou RV770? Zřejmě ne, je zde ale ještě jedno magické slůvko:

Hustota tranzistorů

Hustota tranzistorů není synonymem pro výrobní postup a v jeho rámci se může měnit. Nižší hustota logicky znamená větší plochu čipu, ale vyšší dosažitelné frekvence. Vyšší hustota znamená přesný opak: na čip se vejde více logických obvodů, ale nedokáže pak běžet na vysokém taktu. Již dávno se mluvilo o tom, že RV770 využije vylepšenou verzi 55nm postupu od TSMC. Mysleli jsme si, že to umožní čipu běžet na vysokých frekvencích kolem 1 GHz, ale jak se ukazuje, vylepšení spočívalo v něčem jiném.

Obecně lze říci, že architektura R6xx byla navržena s ohledem na snadnou rozšiřitelnost, čehož jsme svědky právě u RV770. Máme tedy již pohromadě velkou část skládačky, ale některé dílky stále chybí. Jako například…

Anti-aliasing

Pro architekturu R6xx je charakteristické, že výpočet anti-aliasingu provádí stream processory a nikoliv RBE jednotky, jak je obvyklé u všech ostatních GPU. „Shader-assisted AA resolve“ je flexibilnější a nevytváří artefakty při současném použití některých efektů a renderovacích postupů, ale co naplat, když je pomalejší. Mírné změny se v tomto ohledu odehrály už v RV670 a předpokládalo se, že u RV770 budou učiněny další kroky.

Fudzilla nyní píše, že RV770 bude AA provádět přes RBEs a nikoliv přes shadery. To ale do naší skládačky nezapadá. Sami asi víte, že často se texturovací jednotky označují za brzdu výkonu RV670. RV770 má sice texturovacích jednotek dvojnásobek, ale shaderů v relativních číslech ještě více. Díky tomu by stream processory měly mít dostatečnou rezervu na výpočty anti-aliasingu bez větších propadů výkonu.

Věřte-nevěřte

Takových pochybných zpráv, jako ta o anti-aliasingu z Fudzilly, je samozřejmě více. První pochází ze stejného zdroje.

CUDA a PhysX i na Radeonech?

Ve snímcích z prezentací AMD, které unikly na veřejnost, bylo u specifikací Radeonů HD 4800 napsáno i cosi o podpoře výpočtů fyziky přes GPU. Samozřejmě, shadery čipů architektur R6xx a R5xx jsou vysoce univerzální a dá se na nich počítat prakticky cokoliv, takže jsem to považoval jen za laciné marketingové plácnutí do vody. Fudzilla ale přišla s teorií, že podporu fyzikálních výpočtů by ATi mohla získat od svého soupeře, Nvidie.

Když Nvidia koupila Ageiu, zabudovala PhysX do své GPGPU platformy CUDA. Podle Fudzilly Nvidia nabídla ATi, že když přijme platformu CUDA, může mít i PhysX. Šťedrá to nabídka, že? Navíc taková, která by byla výhodná pro všechny strany včetně zákazníků. A vlastně proč ne, když Intel a AMD mají už léta smlouvy na výměnu technologií (a takto se „vyměňovalo“ například SSE nebo AMD64, které by samotný jeden výrobce zřejmě neprotlačil)? Ale jak to tak bývá, vypadá to zřejmě příliš dobře na to, aby to byla pravda.

Když jsem onehdá mluvil s Igorem Staňkem na téma Assassin's Creed, mezi řečí mi Igor stihl vychválit produkty Nvidie (koneckonců je to v jeho popisu práce) a zmínil se i o tom, že CUDA a PhysX jsou trumfy na straně zeleného týmu, které konkurence mít nebude. Z různých tahanic o SLI si navíc můžeme udělat představu, jak ochotná Nvidia je propůjčovat své technologie někomu jinému, a tak se nebojím prohlásit, že Fuad Abazovič vypustil do světa pořádně vypečenou kachnu.

R700: více než CrossFire?

Víme, že R700 neboli Radeon HD 4870 X2 bude používat dva čipy RV770 a opět půjde o multi-GPU na jedné kartě, jako v případě Radeonu HD 3870 X2. Dlouho se ale spekulovalo o vylepšení, kterých by CrossFire mohlo doznat. Zejména takových, které by odstranily nedostatky CrossFire v podobě jevu známého jako micro stuttering a potřeby dvojnásobku paměti. Hovořilo se tedy o možnosti sdílené paměti, pohled na chladič ale poukazuje na klasickou koncepci.

Když dvě grafická jádra pracují v režimu AFR (alternate frame rendering), kde jedno jádro vykresluje liché snímky a druhé jádro sudé snímky, často se objevuje nepoměr mezi dobami, kdy je snímek dokončen, poslán na obrazovku a čip začíná pracovat na dalším. Zatímco průměrné framerate je vysoké, na zlomky sekund dochází k propadům. Výsledné nepatrné trhání se nazývá micro stuttering a pro některé hráče je to jev velmi nepříjemný.

Dá se micro stuttering nějak ošetřit? Někteří tvrdí, že problém alespoň částečně vyřeší použití PCI Express můstku, který bude podporovat PCI Express 2.0, samozřejmě ve spojení s deskou s moderním čipsetem, který standardu PCIe 2.0 odpovídá také. Podle jiných je micro stuttering neoddělitelně spjat se všemi multi-GPU systémy a řešení neexistuje.

Se vskutku zajímavou teorií přišel uživatel newzhunter z VR-Zone fóra. Tvrdí, že shadery běží na 1050 MHz (to je ona teorie, od které jsme se právě odklonili), že Radeon HD 4870 X2 nebude trpět micro stutteringem a že zatímco komunikace mezi čipy RV670 na Radeonu HD 3870 X2 byla závislá na PLX můstku, čipy RV770 na nové dvoučipové kartě budou komunikovat skrz sdílenou paměť, což by znamenalo, že pro komunikaci bude k dispozici 160 GB/s (odhadovaná propustnost pamětí jednoho čipu).

Větší koncentraci nesmyslů v jednom příspěvku na fóru bychom hledali jen těžko. Komunikace dvou čipů v CrossFire rozhodně není „závislá“ na PCI Express sběrnici (v případě dvoučipových karet na PLX můstku), pro tuto funkci je primárně určen starý dobrý CrossFire můstek. A co je nejdůležitější, paměťové čipy GDDR nemohou být připojeny ke dvěma řadičům zároveň, čímž tato teorie rychle bere za své. A nakonec i sám newzhunter převzal zprávu z NordicHardware a rozšířil řady stoupenců teorie o 800 stream processorech. Zdali se ale ATi podaří ošetřit micro stuttering, to je zatím ve hvězdách.

Sečteno podtrženo, zdá se skoro jisté, že RV770 dostane do vínku 800 stream processorů (buď jako 160 5D jednotek, nebo 80 10D jednotek, což ale není příliš pravděpodobné) a 32 texturovacích jednotek. Radeonu HD 4870 by pak nemělo činit problém porazit nejvýkonnější jednočipové karty s jádrem G92, které je větší (330 mm2) a tudíž dražší.

Až po přechodu na 55nm výrobu se plocha dostane na hodnotu srovnatelnou s RV770. Zatím se ale nestalo, že by optický shrink umožnil dosáhnout vyššího výkonu, takže z již nastolených předpokladů lze vydedukovat, že ani G92b se RV770 nevyrovná. Nvidii to ale příliš trápit nemusí, G92 je na trhu déle, než RV670 a za tu dobu zisky z prodeje stihly pokrýt nemalou část nákladů na vývoj. I kdyby tedy karty Nvidie byly reálně dražší na výrobu, může si kalifornská společnost dovolit prodávat je levněji než ATi, pro kterou je každý dolar dobrý.

ICTS24

Na samý závěr dodám, že vydání Radeonů HD 4850 a HD 4870 je stanoveno na 25. června/júna.

Zdroje: Hardware-Infos, NordicHardware, Fudzilla, VR-Zone fórum a samozřejmě Beyond3D fórum