Jestli jsou to intrinsics (což není totéž, jako přímo napsaný asemblér), tak je rpavděpodobné, že ten codepath pro AVX2 fakt je neoptimální, respektive kompilátor z toho generuje špatnej kód, kdežto pro AVX-512 dobrej. V tom kontextu, že to vykazuje absolutně atypické zrychlení mnohem vyšší než normální případy, je tohle vysvětlení vysoce pravděpodobné a spíš by byly třeba nějaké pádnější důkazy opaku.
Nereprezentativní by to každopádně bylo i tehdy, pokud by to jakože byl stoprocentně legitimní benchmark z důvodu, že je to extrémní/cornercase případ. To, že je to 1) hrozně velká odchylka od typického případu 2) ojedinělá je pro mě důležitější faktor proč to považovat za nereprezentativní ("kuriozita"), než to technické pozadí (které nevíme jistě).