Ta proměnný délka instrukcí je prostě jenom jeden z problémů, kterým vývoj CPU mikroarchitektury čelí. Není to jedinej, nejzásadnější, ani nepřekonatelný problém. Inženýři na něj prostě použijou nějaké řešení nebo zmírnění - jako tohle nebo uOP cache. Jak je vidět, x86 CPU s ním 20+ let úspěšně žijou. Řešení mají nějakou cenu ve spotřebě a tranzistorech, ale tu má všechno, zase se to třeba nažene jinde.
Takhle (že jsou strašně špatné protože stojí tranzistory) by se dalo šílet nad tolikerýma funkcema v procesorech, například byli lidi kteří odmítali out-of-order protože stojí tranzistory a spotřebu navíc. A kde jsou dneska.
Ve výsledku IMHO pořád platí že čím komplexnější procesory, tím menší rozdíl u nich ta instrukční sada dělá. A jestli ve výsledku ARMv8/9 dokáže být třeba o 5-10% efektivnější (víc to IMHO fundamentálně nebude), tak to je jenom dílčí věc, kterou klidně může vyvážit to, že x86 je prostě kompatibilní se "vším" a to je plus. Už jenom historicky děděné optimalizace a tuning softwaru na x86 procesory těch 10% může čsto převážit, takže je úplně legitimní takové CPU používat a zůstávat u té ISA.
TL+DR je třeba se na to nedívat černobíle a fanaticky a hlavně se nezacyklovávat na dílčích detailech a nevidět pro ně celek.