tombomino, 11.5.2017 at 9:27: "Hele, mne osobne je to celkem sumak, jelikoz je pro mne stejne vsechno cenove nad 1060/580 nezajimave."
tombomino, 11.5.2017 at 12:37: "mi AMD fanatici jsme opravdu uz zoufali"
tombomino, 11.5.2017 at 9:29: "Mne je Vega sumak, jelikoz to neni stejne moje cenovka."
VÁŽENÝ tombmimino, pokud VÁS high-end, NEZAJÍMÁ, tak bych vám velice rád doporučil aby jste se diskuzí u high-endu NEZÚČASTŇOVAL. Děkuji
Mě opravdu slabodušší jedinci kteří na to nemají, nezajímají, a nezajímá mě ani jejich názor, že to není karta pro ně a další keci. Ať si koupí svou rx460 a nebo 1050Ti a dají pokoj. Nevím proč tady takoví lidé mají pořád potřebu psát do diskuzí co si nekoupí? Nejvíc mě vytáčí lidé: "mě to neoslovililo, protože mám xyz kartu a zatím větší výkon nepotřebuju." Tak proč to do diskuze píše? Co to je za jedince co si myslí si, že někoho zajímá jeho názor co si nekoupí? Já tady taky nepíšu co si nekoupím, nekoupím si růžové auto, nekoupím si zelenej hrnek, nekoupím si žlutej deštník, KOHO TO ZAJÍMÁ? Nikoho!!!
Pro mě zatím zklamání, čekal jsem víc. Přes 15 Tflops tlačí Titan Xp na vodě, takže pouze lehká evoluce. Čip jako kráva (herní předpokládám kolem 600mm2), takže cena bude vysoká, výtěžnost mizerná. Ty marketingový kecy od kožené b(k)undy na mě neplatí. 2080Ti tu bude za cca rok, stejně jako 1080Ti od představení P100. To už by mělo AMD vydávat Navi, tak snad se dočkáme nějakých výkonnových posunů, protože tohle je nuda.
Ano, Nvidia by pravděpodovbně byla schopná vydat herní verze podobně rychle jako loni s Pascalem, ale aktuálně asi nemá důvod. 1080Ti se prodávají nově, 1070/80 pořád bez konkurence, obecně má teď většina lidí upgradováno... A Vegy se nejspíš nebojí, no a i kdyby překvapila, můžou reagovat jak cenově, tak nejspíš i dřívějším vydáním herní Volty. Jsou holt až v nezdravě dobré sitauci. :D
Naopak v oblasti těch "enterprise výpočtů" tak se na Voltu už čekalo a zájem by měl být množná i větší, než v případě Pascalu. A v oblastech, kde se využíjí Tensor cores, tak to může být opravdu revoluce, jinde standartní nová generace.
Hlavne je legracni, jak se AMD fans Volty boji. Dival ses uz na ty dva cerveny fanweby? Ani jeden neuvedl, ze vykon se zapojenymi Tensor Cores ma byt az 120 TFLOPS :) Ten silenec z blogysku na tom dokonce postavil teorii, ze narust vykonu u Volty neni moc velky, doslova "NVIDIA je tak o 48% větší, mnohonásobně výrobně náročnější a dražší a jen o 20% výkonnější" :D Uvedomuje si vubec, jak brutalne se ztrapnil? :D Vykon Tesly V100 muze byt az o 545% vyssi, nez u Vegy od AMD :D Vegu v HPC proste nikdo kupovat nebude. To je uz ted docela jasne. A jestli prijdou brzy i consumer Volta GPU, nebude nikdo Vegu kupovat ani jinak.
Vítám partu ubrečenců a trolů z diit! Krásné ráno všem! Tak moje křišťálová koule nelhala když předpověděla, že AMD počká na Voltu aby zase hrála druhé housle.
Uvědomil jsem si ale i jinou věc, vem si jakou to dalo práci navrhnout, odladit, dostat na výrobní linku, vyladit výrobní linku, snížit zmetkovost, a pak ti nějaká AMD socka napíše: "Ta nVidia má přepálený ceny! FŮJ! Počkám si na Vegu a nVidie bude muset zlevnit!" Ale přitom vůbec nevidí jak to všechno bylo drahé a cena je opodstatněná. Pak výjde vega a bude mít srovnatelnou cenu s Voltou a najednou to bude super produkt za skvělé peníze?! Všichni AMD fanoušci jsou na chocholouška.
Jinak k té Voltě, je jasné a viditelné z těch schémat, že u herního čipu vynechají ty výpočtové bloky, protože zabírají polovinu prostoru tak se nabízí že energie klesne na polovinu tedy těch zmíněných 150W a velikost čipu bude někde mezi 400-500mm2. Ani bych se nedivil kdyby vyráběli uprostřed wafru tyhle náročné čipy a na okrajích pro herní ty druhé zmetkovité.
Jak nehodí? Když o tom tak přemýšlím, nebyla to právě AMD, která přispěchala s DX12 a Vulkánem pro asynchronní řazení grafických a výpočtových úloh? Co když nVidie přišla s tím že nebude provádět hyperthearding úloh, ale obě cesty zpracování od sebe oddělí, tak že budou obě fronty zpracovávány souběžně? aha že. (netrvdím že to tak bude, ale jen mě dojímají předčasné závěry, s tím že neexistující Vega je už teď lepší než už existující Volta)
Zase nazarize v ramci rage proti Nvidii na limit znalosti. Tensor Cores se daji vyuzit nejek k trenovani, ale i k inference (tzn. pouziti vytrenovaneho modelu). Nvidia k tomu ma dokonce I knihovnu - TensorRT ( https://developer.nvidia.com/tensorrt ).
Vyznam pro hrace je jasny - staci aby v GPU bylo par Tensor Cores (protoze inference je mnohonasobne rychlejsi nez trenovani) a hry muzou vyuzivat pokrocile AI - a to nejen pro nepratele, ale take pro porozumeni textu, hlasu atd. (pozor, nemluvim o rozpoznani reci, ale o pochopeni obsahu).
jo a ještě koukám, předobjednávky už příjmají, a začnou dodávat celé systémy v Q3 a v Q4 už samotné karty. Takže Q2 pomalu končí, takže už je musí mít vyladěné, vyzkoušené a připravené a trh je vrhnout. Nejpozději v listopadu tady budou herní Volty, ne-li dřív. Ta platforma je hotová a už teď musí z linek sjíždět první čipy. nVidie na AMD čekat nebude a ty dva roky nadvlády pilovala Voltu k dokonalosti! Bay bAy vlhké sny o Vece...
Nvidia byla v low-level API lepsi nez AMD uz pred Voltou. To akorat vy AMD fans si to spatne vykladate. Ja to chapu, pri stavu, v jakem AMD je, se chytate cehokoliv, ok. A ano, AMD ma v low-level API vetsi narusty, nez Nvidia. Ale ve vysledku je i tak Nvidia stale rychlejsi (pouze naskok se zmensi). Jenze duvod pro vetsi narusty u AMD neni to, ze by mela lepsi implementaci low level API. Duvod je to, ze puvodni implementace AMD pro DX11 byla vyrazne horsi, nez u Nvidie, takze meli mnohem vetsi prostor pro zlepseni.
GTX1060 of Nvidie je totiz v 30% mensi cip, presto dosahuje stejneho vykonu v DX12, jako RX480. To je to zasadni meritko efektivity architektury.
http://www.in.techspot.com/reviews/graphics-cards/radeon-rx-580-vs-geforce-gtx-1060-27-game-battle/articleshow/58528882.cms?page=8
tak, s tou vyhodnostou gtx1060 narozdiel od rx480(580)
by som si na tvojom mieste kusol do jazyka :)
pri 27.hrach je 16x rychlejsia,0xrovnaka 2x -1% a 9x pomalsia
btw, tvojich 30%menej pravdepodobne robi presne to, ze ju nekupuju ludia na cryptomining, ale asi by ti odpadli prsty, keby si to napisal, co
Přesnost by měa být standardní, FP16 nebo FP32 (teď úpně jistě nevím, ale výsledek se může uložit do FP16 i do FP32). To omezení je tam v tom, že je to jen jedna operace součinu nad 16 dvojicema vstupů a k tomu ten součet zase s 16 čísly. Čili to není srovnatelné s nromální shader ALU, je to spíš jako kdyby to byl specializovaný blok DSP nebo ASIC akcelerátoru.
Užitečné to má být pro určitý algoritmus trénující neuronovou síť přesně těmahle operacema, nic víc, nic míň.
Tensor Cores maji presnost FP16/32 - viz. AT - "These cores are essentially a mass collection of ALUs for performing 4x4 Matrix operations; specifically a fused multiply add (A*B+C), multiplying two 4x4 FP16 matrices together, and then adding that result to an FP16 or FP32 4x4 matrix to generate a final 4x4 FP32 matrix."
Cela V100 ma ve skutecnosti 5376 (Cuda) + 672 (Tensor) = 6048 jader, protoze Tensor Cores jsou samostatna. Operace, ktere Tensor Cores delaji, jsou presne ty, co se pouzivaji ve strojovem uceni (konkretne deep learning). Na to ma byt nova Vega primo urcena, ale uprimne, s vykonem jen 22 TFLOPS proti 120 TFLOPS nema zadnou sanci. A to jeste pred tim, nez vubec stihla vyjit. Pro AMD naprosta katastrofa.
@Maudit
Mělo by to být 25 TFLOPS. Jinak teda osobně nemám vůbec představu, k jak velkému subsetu všech různejch AI/NN algoritmů tahle oparace stačí. Pokud by to všechno bylo takhle jednoduchý, tak samozřejmě nepotřebujeme GPU, ale všechno by to jelo na jednodušších ASIC, které by neuměly nic jiného (takže super spotřeba a výkon...), něco jako se stalo s Bitcoin minery. Nebo teda aspoň z toho mám takovej pocit.
U složitějších algoritmů by se to ale asi pořád dalo uplatnit vždycky na část toho procesu...
Tak jo Maudite, Intel se s návrhem vysokofrekvenční architektury vůbec nesekl..tudíž ani nemohl přejít zpatky na PentiumM (alias vylepšené P3), které dosahovalo daleko vetsiho výkonu v přepočtu na 1 MHz než li P4.
Shrnuto, tráva je o pět zelenější, v tomto případe modrejsi a vlastně proc tu diskutujeme.. ;)
tombomino 11.5.2017 at 11:51 Jako obvykle jsi kompletne mimo. Intel mel vysokofrekvencni architekturu northwood / prescott zcela v poradku, byla na vrzena na 4-5GHz. Jenze vyrobni proces tech frekvenci ani pres extremni spotrebu nedosahl. V procesu byl problem, ne v arch.
Dnes ma tedy nvidia jak vhodnou arch tak proces, a jeste k tomu nizkou spotrebu.
v prvom rade je to ako J.Olsan napisal, nejde o 30% cca 16%, v DX12 je radeon efektivnejsi o cca 5% priemerne,. a ked napisem ze (po druhykrat, ale vy dvaja to radostne ignorujete) tie radeon cipy obsahuju obvody, ktore a pouzivaju na kryptotazbu, a tento nvidia cip take nema. este raz si zrataj efektivitu. ty efektivito
jo, 2 kopy trusu :)
Hnizdo, chapes ty pismenka co jsou napsane? Chapes vyznam slovniho spojeni "Schopnost architektury dosahovat vyssich frekvenci je ale taky znamkou jeji vyssi pokrocilosti." Coz je nesmyslna veta, protoze neni pravdiva.
Pokud nechapes tuhle vetu, tak vubec nevim, proc tady na neco odpovidas. Protoze odpovidas uplne neco jineho.
zufalstvo? :D ved tvoje alterego Maudit zacal vyberat vzorku hier, nie ja. co to tocis
http://www.techspot.com/articles-info/1393/bench/Average.png
tu mas zoznam 27hier, jo cisto vybrana vzorka(asi ti tam chyba dosbox v starej verzii co)
to je neaka tvoja mantra vsak, napises 5 komentov, a ked ti niekto dava linky a fakty, tak nahodis kecy o fanatikoch, a tym doj.bes debatu :)
fajn podme sa bavit o kryptotazeni. aka je gtx1060 efektivna vs rx480+ pripocitame tam ten 5%rozdiel v hrach. tak budeme mat zratany cely cip a potom uvidime kto je tu fanatik
Architektura P4 měla určité problémy (replay stormy, měla hodně slabých míst, které vyžadovaly, aby programátor speciálně pro P4 ladil a testoval výkon - pokud by to byla minoritní architektura od AMD, tak to úplně vybouchne).
Ale není pravda, že by ji zradil proces. Problém byl v tom, že ten plán na vysoké takty narazil na fenomén, že spotřeba nad těma 3,5-4 GHz (tehdy) šla strašn nahoru a škálovat to prakticky už dál nemohlo, i když čistě ta archtiektura na ještě větší takty dělaná byla. Objevila se tzv. Frequency Wall, kteorou v době koncipování Netburstu nikdo nečekal. Lepší proces by moc nepomohl.
A ještě se tam objevilo, že první generace P4 byla dobrá - nebyla. První 180nm generace byla nejhorší (Willamete, bez HT, jen 256KB L2 a tak dál). Nejlepší komparativně proti konkurenci byl Northwood, tj. druhá generace na 130 nm. Cedar Mill na 65nm už byl příliš pozadu za K8, ale taky byl lepší než Prescott.
Jan Olšan 11.5.2017 at 12:45 V tom bordelu jsem to prehlid.
"Ale není pravda, že by ji zradil proces. Problém byl v tom, že ten plán na vysoké takty narazil na fenomén, že spotřeba nad těma 3,5-4 GHz (tehdy) šla strašn nahoru a škálovat to prakticky už dál nemohlo, i když čistě ta archtiektura na ještě větší takty dělaná byla. Objevila se tzv. Frequency Wall, kteorou v době koncipování Netburstu nikdo nečekal. Lepší proces by moc nepomohl."
Hmm, architektura byla delana na vysoke frekvence. Procesem to nebylo. Cim to tedy bylo?
https://en.wikipedia.org/wiki/Pentium_4
At the launch of the Pentium 4, Intel stated that NetBurst-based processors were expected to scale to 10 GHz after several fabrication process generations. However, the clock speed of processors using the NetBurst microarchitecture reached a maximum of 3.8 GHz. Intel had not anticipated a rapid upward scaling of transistor power leakage that began to occur as the die reached the 90 nm lithography and smaller.
Na wiki se pise, ze to bylo procesem.
Hnizdo, ty jsi nekdy nekoho usvedcil? :D Ty delas jen blba ze sebe dokolecka dokola a nazyvas to 'usvedcenim' druheho. Jenom neustale ukazujes, ze jsi jeste hloupejsi.
Ale jinak jsi samozrejme genialni, diky tobe spousta lidi urcite prozre. Tvuj nadhled nad vecmi je ohromujici a v nemem udivu uz opravdu nemam co rict :D
@Hnizdo
Procesem to nebylo, protože ani slušný 65nm proces po horším 90n to nezachránil. Ta frequency wall a zvýšená leakage by nastala na jakémkoli procesu. Architektura prostě byla dělaná v době, kdy byla leakage málo významná a zřejmě se nevědělo, jak moc na 90nm a později poroste. A když najednou ta leakage přišla a začla růst jako blázen, tak moc nebylo jak ji vyřešit - leda zůstávat na nižších frekvencích a výkon zvedat hlavně přes IPC (což ale bylo opačené rozhodnutí, než za koncepcí Netburstu).
Toto by nastalo n akaždém procesu, erge myslím můžu zodpovědně říct, že proces to nazabil. Prostě to bylo koncipována za odlišného stavu vědění. Dneska je ten frequency wall známej a všichni si myslí, jak to bylo zřejmé, ale to je situace "po bitvě je každý generálem". Před Pentiem 4 se to nevědělo a Intel měl prstoě smůlu, že ta čest ukázat všem na slepou uličku padla na něj.
I když tedy jak bylo řečeno ty jádra měla i další slabiny, ale co tu koncepci znemožnilo byla ta frequency wall.
Hele Honzo ja mel struktury na kremiku jen dva semestry, ale leakage je zalezitost technologie, tedy procesu (vlastnosti substratu a fyzikalnich vlastnosti pouzitych hradel, bulk leakage - do substratu, inter-leakage meziprvkove), ne architektury (logicke struktury). Coz je presne to co se pise na wiki. Hadat se dal nebudu, protoze tohle nejde rozsoudit s nasimi znalostmi. Pokud tedy nemas doktorat z planarcnich technologii a mas pristup k vnitrofiremni dokumentaci intelu. Ja vychazim pouze z verejne dostupnych informaci a znalosti z VS.
Já myslím že to není až tak technické, ta leakage obecně dost rostla od 130nm do 65nm, zatímco dřív (předtím) dělala mnohem nižší část spotřeby čipu. Při návrhu Netburstu v devadesátých letech (tj na scéně byl 250-180nm proces) nejspíš ještě byla dost podružná, a tak s ní návrh málo počítal.
Prescott a poslední Pentia 4 se trefila zrovna do doby, kdy ten problém s leakage byl největší. Protože potom při 45nm procesu se na ni Intel IIRC hodně zaměřil a povedlo se jí dost zredukovat použitím technologie HKMG. Později pak FinFETy/TriGate byly taky efektivní proti únikovým proudům. Ale to všechno přišlo pro Pentium 4 pozdě, v té době, kdy bylo nejvíc pod tlakem od K8ky, se zrovna ta jeho koncepce nejmíň vyplácela. 90nm proces Intelu byl asi taky horší než 130nm nebo 65nm, ale úplně zas tak drastický propad to asi nebyl.
(Edit: onoo teda mi přijde, že se v tom zas tak nerozcházíme, ono to je z jedné strany pravda, že Intel byl nechán ve štychu křemíkem. Já s tím nesouhlasil proto, že to IMHO nebyla vina toho, že by jejich proces byl tak špatný, ale s jiným procesem by to nefungovalo. O co mi šlo, že IMHO by to v té době nefungovalo s žádným procesem, ani s tím od AMD (90nm byl u nich IIRC překvapivě povedený). Tehdy ta technologie prostě tu leakage měla a na těch vysokých frekvencí u Pentia4 se projevovala. Možná by to bylo úspěšnější dnes na FinFETech, ale stejně by to podle mě trpělo na tu frequency wall, teda že by se to pořád frekvencí nedostalo o moc výš než jádra s vyšším IPC, protože spotřeba by nad určitou hranicí rostla příliš rychle. Asi by to dopadlo podobně jako Bulldozer - dostalo by se to třeba až na 5-5,5 GHz, ale zase s horším IPC, takže pokud by proti tomu stálo jádro typu Nehalem/Sandy/Haswell, tak by to dostalo stejnou nebo asi i horší čočku, protože pro konkurenceschopnost by to potřebovalo 7-8 GHz).
Je teda pravda, že by bylo zajímavé se podívat na extrémní OC 90nm a 65nm Pentií 4. Ty 65nm se daly pod udsíkem vytočit strašně vysoko, což ukazovalo, že archtiektura na frekvenci měla, problém byl ve spotřebě. 90nm snad pokud se nepletu taky šly na hodně vysoké frekvence (taky s tou hloubkou pipeline by bylo divné, kdyby nešla).
Vycházím hlavně z toho, co jsem vyslechl tak porůznu, samozřejmě se můžu mýlit. Ale zapadalo by to.
Údajně se prý ta architektura Tensor Cores dost podobá TPU od Googlu, ta je prý dělaná přesně na to samé, jen má jenom INT8 přesnost.
Čili se to asi dá chápat jako specializovaný akcelerátor pro určitou operaci. Ale proti TPU tohle bude mít výhodu, že Volta mezi tím dokáže dělat i obecné operace.
@del42sa
Kdyz se vyhodnocuje signal pro node (neuron), tak se nasobi prichozi hodnota vahou pro dane spojeni (typicky byva spojena kazda node v jedne vrstve site s kazdou v dalsi vrstve). To se udela pro vsechny nody v dane vrstve a ten vysledek se pak secte pro kazdou node. Proto matice. A tahle jedna iterace, to je presne to, co bude akcelerovane. A protoze deep learning site muzou byt sestavene mnoha ruznymi zpusoby, ale prakticky vsude funguje stejny princip, je vyhodne tuhle jejich zakladni stavebni jednotku specialne akcelerovat.
I když teď čtu co jsi tu sám psal "jo a ještě koukám, předobjednávky už příjmají, a začnou dodávat celé systémy v Q3 a v Q4 už samotné karty. Takže Q2 pomalu končí..."
Tak spíš nelžeš záměrně, ale jsi jen hloupej. Q2 není ještě ani v půli, natož aby končil. To můžeš rovnou napsat, že nám 2017 už pomalu končí. Crhova logika. :D
Aznohh: Snažíš se z toho vylhat? Q2 - duben, květen, červen, Q3 - červenec, srpen, zaří.
Do konce Q2 nám zbývá měsíc a půl a jestli si myslíš že to je dostatečně dlouhá doba na vývoj a testování čipu, tak jsi na omylu. Aby mohli v Q3 začít dodávat tak už nyní musí sjíždět z linky první čipy a dolaďovat poslední detaily. Tys to vzal časově, že končí jako že končí, ale mě šlo o to že nemají čas na to aby teprve teď začli ladit a testovat čip, to je blbost.
Crho ty se v tom plácáš jak žába na pánvi. Pokud to chceš doslova, tak Vega byla narozdíl od Volty k vidění už před půl rokem v akci. Takže mlč o čipech co jdou z výrobní linky. Celá tvoje věta "neexistující Vega je už teď lepší než už existující Volta" je jen výplodek zedníka fanobye.
BTW jsem se poradne podival na ty Tensor Cores:
These cores are essentially a mass collection of ALUs for performing 4x4 Matrix operations; specifically a fused multiply add (A*B+C), multiplying two 4x4 FP16 matrices together, and then adding that result to an FP16 or FP32 4x4 matrix to generate a final 4x4 FP32 matrix.
... tudiz nejenze to umi jenom matice, ono to umi nasobit jenom FP16 matice. Tudiz vsichni co delaji neco jineho nez deep learning, na tech 120TFlops muzou rovnou zapomenout (protoze 99% HPC ktere neni deep learning, pouziva FP32 nebo FP64). Tohle mi uz prijde jako dost extremni sazka na AI...