Právěže ne, zpracovávat na několik taktů se musí ty fixní vektory u x86 (Zen4 má 256-bit SIMD takže AVX512 musí chroustat na dvakrát) protože jsou FIXNÍ z pohledu programátora/šířky registrů. Ty vektorové instrukce SVE jsou nezávislé na šířce vektoru - to je na tom to revoluční.
Napíšeš program pro SVE a ten poběží na kterémkoliv CPU ať už má 128-bit SIMD nebo 2048-bit SIMD jednotky. SW si to sám rozeseká na tak velké šířky jaké podporuje daný CPU dynamicky za běhu programu.
S fixníma vektorama u x86 AVX512 musíš mít definovanou šířku už běhěm kompilace. Max co můžeš udělat je zkompilovat několik codepath dohromady.