Neřekl bych, že má ten shader sám o sobě nižší výkon. Ono je tam jednak, že to není zdvojení pro všechny operace. Už Turing měl ty shadery navíc pro celočíselné operace vedle FP32, takže dejme tomu, že měl virtuálně něco 1,3× výhodu proti Pascalu, kdežto Ampere může proti Pascalu dosáhnout maximálně 2× (2× proti Turingu by se stalo jenom, kdyby se počítaly jenom FP32 operace a žádné jiné).
Tudíž škálování může být maximálně třeba 1,5-1,6× proti Turingu a to by byl úspěch. Pak se k tomu přidává to, že třeba může být bottleneck jinde (cache, ROP) a asi není výjimka, že když počet shaderů šel nejednou tak drasticky nahoru, tak častěji nejsou plně využité.
Paradoxně to trochu připomíná GCN v letech 2012-2015. Víc shaderů, víc TFLOPS, ale konkurence má architekturu s podobným výkonem při menším počtu jednotek.