No moc materiálu abych na všechno reagoval, ale širší vektor naopak udělá out-of-order zpracování instrukcí efektivnější.
Když místo 512bitové operace (AVX-512) budete jádrem prohánět čtyři 128bitové, tak plýtváte místem v ReorderBufferu (čtyři položky zaplácnuté místo jedné), to samé u propustnosti issue, renameru... širší vektor vede k lepší energetické efektivitě, protože se zjednoduší většina fází zpracování. Také méně instrukcí zabere míň místa v instrukční cache.
"Sežere to ovšem o 60 bajtů víc v cache, což myslím taky žádný CPU nepoloží." -- jo, to je přesně ten problém, když se to děje u mnoha instrukcí v dané funkci.
Argument s Itaniem ale byl o něčem jiném. Byla to taková změna paradigmatu, o které se tvrdilo, že všechno zlepší a zjednoduší (jako flexibilní šířka SIMD u SVE), a pak se zjistilo, že to nefunguje, protože tu teorii v praxi nezvládnou udělat kompilátory kódu (a pak hapruje i to dynamické zpracování v procesoru).