Je to asi zcela z opačné strany výkonového spektra, ale úplně nejobyčejnější AVX512 Intel a sice 11400f si i plným využitím těchto instrukcí vystačí s 95W bez snížení ALL Core turba. 95% času se nachází v kolem těch 4.2GHz.
Je všem jasné, že žádnému Rocketu nemůže nikdy s AVX512 stačit papírových 65W, ale 95W popřípadě 100 stačí celkem v klidu. Nějaké PL2 neuznávám, používám dlouhodobou kontinuální zátěž.
Otázkou je zda tyto AI výpočty nemůže výkoněji/efektivněji provést dGPU. Například v tomto starším deep-learning benchmarku byl nejvýkonějším měřeným CPU Threadripper 3970X (nad ní se v žebříčku s výšším score umístila Geforce 960M).
https://ai-benchmark.com/ranking_deeplearning
Je mi jasné, že instrukční sety a výkon CPU je dnes zcela jinde, ale GPU od té doby také zaznamenala nemalý progres. Například zmíněná 960M měla v OpenCL Geekbench benchmarku score 12 200 bodu, RTX 4090 má 366 000.
https://browser.geekbench.com/opencl-benchmarks
https://www.notebookcheck.net/GeForce-RTX-4090-performs-up-to-67-better-than-the-RTX-3090-Ti-in-Geekbench-5-s-CUDA-and-OpenCL-benchmarks.659131.0.html
Ano, serverová verze jádra má druhou 512bitovou FMA, takže by mělo být aspoň teoreticky schopné dělat dvě 512bit FMA za cyklus. Bežná verze jádra umí jen jednou 512bit (pomocí složení dvou 256bit jednotek).
Toto nicméně platí jen pro floating-point operace. Integer operace třeba pro multimédia by měly mít plný výkon už na normálním jádru Golden Cove v Alder Lake (když se u něj ještě AVX-512 dalo zapnout).