Akorát když se to dělá přes skalární FPU, tak na to nepotřebuješ žádnou speciální Shuffle instrukci. Prostě si pointerem sáhneš přímo do pole pro jakoukoliv hodnotu i bez Shuffle.
Tady vidíš kolik zbytečných instrukcí sebou ty SIMD nesou, jenom aby měli stejnou funkcionalitu jako obyč skalár FPU výpočet. Když u AVX změníš délku registru tak musíš automaticky mít i nové instrukce, protože je to fixní, že jo. Tohle je jedna výhod SVE2, jinak by museli mít 16 verzí instrukcí pro těch 16 různých délek vektorů (třeba 384-bit nebo 640-bit ...).