My máme v rodine od Korony 2020 od zamestnávateľa jeden notebook s Core i5 1035G1 Ice Lake a AVX-512 je dotyčnej leda tak na dve veci na h..o.
Ale má resp. máme je samozrejme blink - blink :-) a nakoľko darovanému koňovi na zuby nepozeraj tak budem hlásiť v budúcnosti využitie AVX-512 - len sa obávam aby to dovtedy ten notebook dal,,,
P.S. a ako vlastne trojpísmenkoví využili FMA4 ? Nebolo to dokonca tak, že Zen 1 radšej túto podporu tiež potláčal pri detekcii ?
Jenže Intel těch AVX512 má asi 9 variant sad a sám je na desktopu nejdřív nepodporoval a po krátké podpoře zase zařízl. Jinak mohla být SW základna daleko lepší. AMD si vybírá to, co může přinést výkon navíc, neovlivní programátory. Jenže AMD má jeden typ (technicky dva, ale podporou SW se neliší) a ty používá od NTB, přes PC, worstation až po servery. A u serverů AVX 512 smysl má.
@FMA4
U FMA4 nešlo o to, že by ta instrukce měla nějaký potenciál zdvihnout výkon v porovnání s FMA3. Aspoň tedy ne v případě, kdy má CPU funkční MOV elimination pro SIMD instrukce (což myslím třeba Sandy Bridge nemělo...). Většinou by FMA3 i FMA4 kód měl mít stejný výkon, ale protože jsou to jiné opcodes, tak aplikace nemusí umět oboje.
Tam IIRC (*prý*) byl problém v tom, že AMD mělo v plánu řešit FMA jako tří operandovou instrukci (výsledek přepíše jeden z registrů na vstupu), ale Intel se tvářil, že to implementuje nedestruktivně jako FMA4 (výsledek se zapisuje do jiného registru, takže všechny vstupy jsou zachované pro další operace). Ale pak když to AMD předělalo na FMA4, tak Intel vyhlásil, že místo toho udělá FMA3. Proto měl Bulldozer jen FMA4 a až Piledriver přidal i FMA3.
Intel měl FMA3 až o rok později v Haswellu. Ale mohl a často asi i byl tam problém v tom, že vývojáři softwaru všechno radši chystali na Intel a binárky používaly instrukce FMA3, takže Bulldozer měl smůlu, i když funkčně to samé uměl udělat. No a AMD kvůli tomu mělo o trošku složitější dekodéry.
Nemusela to být nutně úmyslná buzerace, dá se to vysvětlit i zmatkováním v Intelu, což jak pozdější vývoj ukázal, není něco, co by se tam nedělo...
P.S. matně si vzpomínám na jeden filtr pro avisynth nebo vapoursynth, který měl FMA4 codepath, ale už nevím, jestli to zlepšovalo výkon na AMD, nebo to bylo pro kompatibilitu s FX-81**/61**/41**. A je to pochopitelně SW, který asi relativně málokdo používal. x264 mělo optimalizace v FMA4 i FMA3 (ale je to floating point operace, takže asi jenom pro mbtree rate control, což je spíš malé procento výpočtů). Ale rozdíl ve výkonu by neměl být velký, jak bylo řečeno.
Inštrukčná sada FMA4 je skrytá, ale pracuje na procesoroch AMD Zen
zdroj: https://www-guru3d-com.translate.goog/story/fma4-instruction-set-hiddenbut-is-working-on-amd-zen-processors/?_x_tr_sl=en&_x_tr_tl=sk&_x_tr_hl=sk&_x_tr_pto=sc