zvlastni skladba, na tom poslednim obrazku je 32 kusu odhadem U3/U4 (spise U4) supliku a v kazdem z nich dvojice modulu (modre), takze 64 modulu po 4 kusech dava tech 11,5 PFLOPS?, tak to vychazi na 256 tech cipu? ty racky jsou sakra velke dvojite a jsou potreba 4 kusy? na fotky pekny, ale jinak je to extra plejtvani mistem
To je jednoduche - deep learning se na ASICy nepresune. FMA je sice spolecna operace pro vetsinu deep learning uloh, ale porad jsou tam i dalsi operace (napr. na spravocani obrazu). Predpokladam, ze Cloud TPU of Googlu tohle bude muset predpocitavat na CPU. Kombinace primo v ramci vypocetniho GPU mi prijde vyhodnejsi.
Volta je taky krok směrem k ASICu (ty tensor cores). já bych se vůběc nedivil, kdyby jeden z těch ASICů, co GPU v machine learningu eventuálně zahrabou, udělali právě oni, teda Nvidia. Trošku jsem se na téma bavil s nějakejma programátorama a taky si mysleli, že v tom oboru převládnou ASICy. Z mý strany je to ale jenom nezávaznej odhad, tak podle toho neinvestujte na burze :)
Edit: teda takhle - ty ASICy nejspíš GPU převálcujou v těch aplikacích (inference), kvůli poměru spotřeby a výkonu. Na učení by se mělo používat celkově menší množství hardwaru než potom na inferenci, a tak je tam asi talk na efektivitu menší. Takže tam by se asi GPU nebo třeba i procesory asi mohly dál používat, pokud budou proti ASICům (a FPGA) nabízet nějaké výhody.
Takze jsi vlastne rekl co ja predtim:
"Predpokladam, ze Cloud TPU of Googlu tohle bude muset predpocitavat na CPU."
"nevidim duvod, proc bych na specializovany HW neposilal rovnou prekodovana data CPUckem"
Jasne, ze tam bude overhead. GPU maji shader units, coz jsou vlastne maticove akceleratory. Jsou mnohem rychlejsi pri praci s obrazem, simulacemi atd., coz je ve strojovem uceni hojne vyuzivano, a hlavne vse je uz v pameti GPU a nemusi to cestovat z hlavni pameti.
jistě že je to v podstatě integrovaný ASIC. Vzhledem k velikosti GV100 se ale nabízí otázka, zda není lepším řešením přídavný akcelerátor ASIC jako přídavná karta/čip než dělat takovéto obludné a nákladné monstrum čipy.
Jistě, Nvidii prvenství za zvládnutí výroby takové čipu už nikdo neodepře ani schopnosti jejich engineeringu. Osobně mi ale přijde lepší řešení například HPC čip o velikosti jako je např. Vega 10 + přidavný ASIC čip na interposeru s TENSOR jádry. Výhody jsou evidetní. Levnější a snadnější výroba, menší zmetkovitost (waffer yields) a potenciálně i rychlejší uvedení na trh. Vubec by mě nepřekvapilo, kdyby AMD nebo jiní výrobci zvolili tento postup.
no jak vidno, tak prozatim to v podani Googlu je obri masina ktera v pomeru prostor/vykon asi bude dost zaostavat, to co nabizi Nvidia v podobe V100 jako GDX system, by zabralo pri stejnem teoretickem vykonu 1 a pul tech racku co vidime na obrazku, v pripade Google to zabira realne 3 a pul tech racku, otazkou bude jaky vykon bude v realu pri danych vypoctech
No jestli chcete, tak si to zobecněte, to už je přece jedno, myšlenka je stejná. Pořád můžete mít specializovaný blok již existujícími prostředky úzce integrovaný s jinými. Což je snad to, o čem jste mluvil, ne?
Hezký den a přeji vám, abyste se do příště lépe vyspal. :) Komentáře o googlení jsou zde zcela mimo.
Ne, nemuze. Neco musi data pripravit pro format ASICu a pak ta data prenest. A v tom je lepsi GPU nez CPU+RAM+ASIC, protoze je vse primo na cipu. Google to nedela proto, ze by to bylo lepsi reseni. Dela to proto, ze je to pro ne i s horsimi vlastnostmi pored dostatecne dobre a zaroven levnejsi, nez nakupovat od Nvidie a AMD.