Dobre spýtam sa úplne po lopate ako lama:
Za predpokladu, že bude podpora zo strany OS Win 8.1 (8.2) tak čo bude tým veľkým krokom v pred vyjadrené výkonom? Budú APU resp. SoC. AMD s hUMA ako napr. Kaveri (architektura Steamroller) výkonnejšie než Intel Brodwell resp. zvýši sa tým podstatne výkon AMD GPU časti APU natoľko aby dokázali eliminovať riešenie povedzme na báze next gen Intel Iris Pro "6200" s L4 cache aka eDRAM ?
P.S. len pre info VIA (S3 Graphics) nadáciu HSA Foundation "Heterogeneous System Architecture" neignorujú a od leta sú jej poplatníci - Contributors (zdroj: http://hsafoundation.com/)
Dobre a je to taka pecka ktora moze vyrazne pomoct AMD alebo sa jedna o nejake to specifikum uloh kde to moze zaujimavo pomoct ale v globale nic moc? Vdaka tomuto mozme vecsinu uloh akcelerovat cez iGPU? AMD do APU riesenia nalieva vsetku snahu, financie a energiu a zatial vysledok ziadny a nikto sa nad nejakymi vypoctami na iGPU nepozastavuje.(viac u mna rezonuje CUDA ktoru pouzivam na nVIDIA karte na prevod videa). Preto mi to pride ako slepa vetva. Vnimam to cez tuto optiku, ako toto moze AMD vyrazne "masivne" pomoct? Vyvazia vypocty na iGPU ich schodok v CPU vykone a architekture oproti Intelu? Je to ten povestny game changer? Ak nie tak je to sice fajn a pekna podpora rozvoja GPU computingu ale inak nic moc.
"Proc? Pro programatora je to krasnej nastroj. Mam program, ktery je vesinu casu sekvencni, ale najednou potrebuju udelat neco, co je embarrassingly parallel"
Ono jde třeba už jen o to, že když váš program v jednu chvíli traverzuje strom, a v jednom bodě si potřebuje odskočit výnásobit matici nebo něco podobného, tak to volání nemusí znamenat tlustou knihovnu, syscall, přenos dat do jiné fyzické paměti, výpočet, a zase všechno zpátky. Čistě technicky, proč by ta komunikace částí programu s jinými požadavky na HW měla být výrazně náročnější než obyčejné volání podprogramu?
Já už jsem i přemýšlel o kompilátoru, který by různé kompilační jednotky (zpravidla jednotlivé funkce) kompiloval podle toho, co skutečně dělají (ať už by to zjišťoval pomocí heuristik, nebo pomocí profilování), tak, aby celá ta věc běžela zcela transparentně (skákavý kód, obecné algoritmy, náhodné přístupy do paměti, => CPU; vektorizovatelný/branchless kód, proudový přístup do paměti => GPU) s minimální režií. Programátor by se o to vůbec neměl starat, natožpak učit nějaké OpenCLka a CUDy a speciální jazyky. To si pak člověk připadá jako v sedmdesátých letech. ;/ Zdá se mi, že AMD se snaží o něco právě takového.
Zas tak stoprocentne jistej bych si nebyl. Pokud TSX funguje tak dobre, jak se Intel chlubi, tak jeho nasazeni v HPC zni jako super zpusob zvyseni vykonu.
Stejne tak premyslim, jestli by to APU neslo dat na server - velky mnozstvi pozadavku je pohodlne paralelizovatelny, jen IO musi resit CPU (a zaroven je to asi nejpomalejsi cast).
Ale realny uspech opravdu zavisi na programatorech - staci spatna dokumentace a vse je v haji (kdyz kouknu na OpenSSL, tak rychle zjistim, ze ji nepotrebuju :D).