K tomu anandtech, je to trosku jinak nez jak pise pan Olšan:
zdroj recenze na Rocket Lake: https://www.anandtech.com/show/16495/intel-rocket-lake-14nm-review-11900k-11700k-11600k/7
For v2.1, we also have a fully optimized AVX2/AVX512 version, which uses intrinsics to get the best performance out of the software. This was done by a former Intel AVX-512 engineer who now works elsewhere. According to Jim Keller, there are only a couple dozen or so people who understand how to extract the best performance out of a CPU, and this guy is one of them. To keep things honest, AMD also has a copy of the code, but has not proposed any changes.
Len pre info implementácia AVX-512 v podaní Centaur CHA 2.2GHz (8C/8T) v yCruncher:
https://scr3.golem.de/screenshots/2209/Centaur-CHA-Benches-vs-x86/thumb620/05-y-cruncher-v0.7.8-9506-(5-billion-digits)-chart.png
https://scr3.golem.de/screenshots/2209/Centaur-CHA-Benches-vs-VIA-v2/thumb620/04-y-cruncher-v0.7.8.9506-(1-billion-digits,-wall-time)-chart.png
zdroj: https://www.golem.de/news/centaur-cha-im-test-der-letzte-x86-prozessor-seiner-art-2209-167757.html
Ne přímo jiné OS, ale herní konzole myslím.
U těch emulátorů se pokud vím hodí ty široké registry AVX-512. Ale nevím, jestli v nich Zen 4 má úspěch. Dolphin byl v té oficiální sadě benchmarků na kterých AMD měřilo IPC (a válelo v něm, ale nevím, jeslti kvůli AVX-512). RPCS3 zapnulo použití AVX-512 na Zenu 4 až v posledním buildu, ale ještě jsem neviděl test, který by ukazoval, jestli tam pomáhá.
Jestli jsou to intrinsics (což není totéž, jako přímo napsaný asemblér), tak je rpavděpodobné, že ten codepath pro AVX2 fakt je neoptimální, respektive kompilátor z toho generuje špatnej kód, kdežto pro AVX-512 dobrej. V tom kontextu, že to vykazuje absolutně atypické zrychlení mnohem vyšší než normální případy, je tohle vysvětlení vysoce pravděpodobné a spíš by byly třeba nějaké pádnější důkazy opaku.
Nereprezentativní by to každopádně bylo i tehdy, pokud by to jakože byl stoprocentně legitimní benchmark z důvodu, že je to extrémní/cornercase případ. To, že je to 1) hrozně velká odchylka od typického případu 2) ojedinělá je pro mě důležitější faktor proč to považovat za nereprezentativní ("kuriozita"), než to technické pozadí (které nevíme jistě).
Píšou AVX2/AVX512
a) veřím Dr. Ian Cutress než Vám, a tvrdí že kód byl odsouhlasen jak Intelem, tak AMD bez připomínek
b) můžu jako low level prográmátor s klidem říct, že compiler intrinsics (resp. hodně krát i dobrý kompilátor) jsou často optimálnější než ručně psaný assembler, prostě ty mikrooptimalizace jsou někdy opravdu zajímavé a chovají se někdy jinak než si myslíme, a kolikrát jsem zahodil ručně psaný assembler, protože kompilátor to udělal lépe a čitelněji přímo