Inak treba si uvedomiť ešte jednu dôležitú vec, že sa stále bavíme o 14nm litografii pri 6W TDP pre N series mobilný "notebookový" segment a max 10W TDP pre J series desktop "Mini-ITX" segment
• 22nm Silvermont
• 14nm Airmont
• 14nm Goldmont
• 14nm Goldmont Plus
Otázka znie či sa niektoré vylepšenia neimplementujú aj do nadchádzajúcej microarchitektúry tzv. veľkých jadier. Nechcem robiť paralelu medzi Pentiom M (Banias, Dothan) a Pentiom 4 (Netburst) => Enhanced Pentium M (Yonah) aka Coro Solo/Duo prípadne Jaguar a Bulldozer => ZEN, ale naozaj jendotka (decoder) JEU sa zdala byť fktívnjšia ako pridanie ďalšej štvrtej ALU pipeline (atď.: https://www.cnews.cz/wp-content/uploads/2017/12/Intel-Atom-Goldmont-plus-architektura.png)
PS. pekne spracované
IPC není výkon na 1 MHz, ale počet zpracovaných instrukcí za takt. Navíc je třeba rozlišovat teoretické IPC (v tomto případě 3) a průměrné (ale aplikace), které je až na výjimky značně nižší.
Tato metrika se nedá přeložit na "výkon" - dost záleží, co za program běží a z jakých instrukcí se skládá. Výkon se dá měřit pouze v konkrétních úlohách.
Pak je ještě třeba dát pozor na míchání instukcí a uOps..
"finální fáze retire zpracovává čtyři instrukce za takt a čtyři operace zvládají také výpočetní jednotky."
Toto jednoduše není pravda. Decode konvertuje x86 (a rozšíření) instrukce na uOps (microOps), což jsou sice také "instrukce", ale pro interní RISC jádro a z jedné x86 instrukce typicky vzniká více uOps.
Například z jedné instrukce ADD reg, mem vzniknou tři uOps - LOAD, ADD a STORE. S nimi se pak dále pracuje (jsou popřehazovány aby bylo jen jedno načtení a jedno uložení, atd.) a jsou vykonány ALU. Proto také nevadí, že Decode fáze zvládá "jen" 3 instrukce a je tedy zdánlivý bottleneck.
No kolokviálně se to IPC používá jako ten výkon v aplikacích (tj. naměřený, ne teoretický, tak jsem to mínil tady.
Jinak IIRC je pořád u hodně instrukcí 1 x86 = 1 uop, to load/store je tam jenom pokud jsou operandy z paměti. Když kód pracuje s registrem tak je to jenom to sčítání. To načtení/uložení do paměti (respektive cache) by ale si mělo jít do load/store pipeline, které jsou zvlášť, ale v tomhle případě na sdílených portech.