"Pro srovnání: Tensor Cores v GPU Nvidia GV100 (Volta) mají dnes udávaný výkon 120 TOPS při TDP 300 W, takže teoreticky 0,4 TOPS/W."
Jenze GV100 od Nvidie je GPU urcene pro trenovani, ne inferenci. Pro trenovani je potreba vetsi presnost a z toho vypliva i vetsi narok na spotrebu. Srovnavate nesrovnatelne. Az bude venku nejaka Tesla s TensorCores, ktera je urcena pro inferenci (podobne jako treba Tesla P4), pak bude mozne srovnavat efektivitu 1:1.
Pro doplneni vysvetleni treba z Anandtechu:
"Within NVIDIA’s product stack for deep learning, they have opted to divide it into two categories of products: training cards and inferencing cards. Neural network training, which typically requires FP16 performance and a whole lot of horsepower, is handled by the likes of the Tesla P100 series, the only cards in NVIDIA’s lineup with a high performance FP16 mode. Meanwhile, because inferencing can be done with less precision on a smaller scale, NVIDIA has offered the M40/M4 cards, and now the P40/P4 cards for this task."
https://www.anandtech.com/show/10675/nvidia-announces-tesla-p40-tesla-p4
Navíc GV100 umí i FP64, takže je více univerzální. Univerzální řešení mají vždy vyšší spotřebu než application specific čipy jako tyhle ARMy. GV100 toho zvládne o dost více, za cenu vyšší spotřeby.
ARMu bude efektivita k ničemu, když nebudou mít výkon. Pokud těch ARMů bude potřeba 30 na jednu GV100, tak ani nižší spotřeba nevyváží pořizovací náklady a zabraný prostor.
A pokud je těch 3TOPS/1W myšleno jako při spotřebě 1W a ne 3TOPS na každý W, tak se pak stejně budou prodávat s frekvencemi které zahodí efektivitu do kopru.
@Maudit
Co takové Tegra Xavier? Takže v ní Tensor cores taky trénujou (to je fikaný, trénujou distribuovaně auta a není třeba žádnejch datacenter doma!) a auťáky za ně řídí asi ty CPU jádra Denver v tom SoC, co? :)
Že má Volta navíc shader procesory a FP64 a tak dále je pravda, ale to je právě ta pointa - kvůli nim je GPU možná Xkrát větší (dražší) a víc žere. Proto jsou ty právě ASICy pro neuronové sítě efektivnější, protože si sebou netáhnou navíc xkrát víc křemíku, který nepotřebují.
Presne. Tesly pro inferenci (V4/V40?) budou mit efektivitu mnohem lepsi, mozna stejnou nebo lepsi, nez ten ARM.
Hint o efektivite by mel by pro autora spis Nvidia Drive Xavier:
https://blogs.nvidia.com/blog/2018/01/07/drive-xavier-processor/
30TOPS, 30W a to obsahuje 8-jadrove CPU a vetsinu casti ma zalohovanou kvuli bezpecnosti, protoze to je cip pro AI v automobilovem prumyslu (viz. keynote).
Holt @janolsan zase perli. Nvidia = enemy.
Stejne jako normalni shader units, muzou i TensorCores mit ruzne presnosti, muze jich byt ruzne mnozstvi, atd..
Celkove to chapes dost blbe. Pro trochu lepsi pochopeni, kde se trenuje a kde se provadi jen inference, popis primo od Nvidie:
"NVIDIA DRIVE PX is part of a broad family of NVIDIA AI computing solutions. Data scientists who train their deep neural networks in the data center on the NVIDIA DGX-1™ AI supercomputer can seamlessly run on NVIDIA DRIVE PX inside the vehicle. The unified architecture enables the same NVIDIA DRIVE software algorithms, libraries and tools that run in the data center also perform inferencing in the car.
This cloud-to-car approach enables cars to receive over-the-air updates to add new features and capabilities throughout the life of a vehicle."
https://nvidianews.nvidia.com/news/nvidia-announces-world-s-first-ai-computer-to-make-robotaxis-a-reality
Takze pro priste - trenuje se na GV100.
Spíš bych řekl, že Jan vycházel hlavně z informací od ARMu, které jsou dost skoupé a nejasné. A byly samozřejmě vybrány tak, aby ty čipy ukázaly v co nejlepším světle. Dokud nebude venku aspoň jeden z těch čipů venku (což pravděpodobně ještě dlouho nebude) dá se vycházet jen z těch marketingových hausnumer.
To je hezky, odpovidat na neco jinyho, nez na co jsem reagoval. Presne odpovida ty povaze, kterou uz zname :) Ja reagoval na tohle:
"Co takové Tegra Xavier? Takže v ní Tensor cores taky trénujou (to je fikaný, trénujou distribuovaně auta a není třeba žádnejch datacenter doma!) a auťáky za ně řídí asi ty CPU jádra Denver v tom SoC, co? "
Pointa vubec nebyla o tom, jestli se da na TensorCores trenovat, vyhodnocovat nebo oboji. To je jasne, ze jde oboji. Pointa je v tom, ze Nvidia sama mluvi o Xavieru jako o platforme, kde se budou pouzivat u natrenovane site. A o serverech s GV100 jako o hadrwaru, kde se bude trenovat. Viz. obe citace (Nvidia, Anandtech) nahore.
Na neuralni siti s presnosti Int8 taky muzes trenovat, ale ta vysledna kvalita bude totalne naprd. Proto se trenuje s vyssi presnosti a pak muze uz ta inference bezet treba s Int8 presnosti. Vahy jednotlivych spoju uz jsou spoctene a snadno se daji prevest na nizsi presnost.