Kde to bude efektivnější přece záleží na tom, co se vlastně počítá. Pokud je algoritmus napsaný na tělo AVX-512 instrukcím, tak na GPU to zřejmě moc dobře nepojede a naopak AMD bude v této pochybné disciplíně vítězit.
S ohledem na to, že GPU bývají optimalizovaná na zpracování 8-, 16-, 32- a max. 64-bitových instrukcí (a s rostoucí bitovostí se proces znatelně zpomaluje), je zpracování 512-bitových (na které se naopak už z názvu orientuje AVX-512) poměrně obtížné - znamená to reálně ekvivalent 8 cyklů v 64-bit přesnosti, stejně jako je prakticky nemožná paralelizace (např. protože nebudeš schopen efektivně ošetřit přetečení výsledku operace do "vedlejšího" procesoru/registru