Odpovídáte na názor k článku AMD vydalo 96jádrové procesory s 3D V-Cache Genoa-X. Zen 4 s víc než gigabajtem cache. Názory mohou přidávat pouze registrovaní uživatelé.
Akorát když se to dělá přes skalární FPU, tak na to nepotřebuješ žádnou speciální Shuffle instrukci. Prostě si pointerem sáhneš přímo do pole pro jakoukoliv hodnotu i bez Shuffle.
Tady vidíš kolik zbytečných instrukcí sebou ty SIMD nesou, jenom aby měli stejnou funkcionalitu jako obyč skalár FPU výpočet. Když u AVX změníš délku registru tak musíš automaticky mít i nové instrukce, protože je to fixní, že jo. Tohle je jedna výhod SVE2, jinak by museli mít 16 verzí instrukcí pro těch 16 různých délek vektorů (třeba 384-bit nebo 640-bit ...).