Naozaj si myslíte, že spotrebu "veľkých" jadier ovplyvňuje AVX? Predsa počet tranzistorov rastie so šírkou vektora len lineárne, tým že sa tam musí dať viac ale rovnakých ALU.
Podľa mňa má oveľa väčší vplyv napríklad pomerne značný rozdiel v latenciách niektorých inštrukcií. Alebo v tom, že veľké jadrá majú všetky jednotky zreťazené, ale pri Atomoch treba na niektoré inštrukcie čakať 60+ taktov a celé jadro je vtedy idle.
Čo sa týka dekóderov, tak hádam že zase bude len jeden komplexný. Inak pre zaujímavosť, koľko bajtov za takt to dekóduje? (nemá to pevnú šírku ako RISC, takže uvádzanie v počtoch inštrukcií nestačí)
Inak taká konšpiračná teória: Atom môže byť tá nová zázračná architektúra, ktorú Intel plánuje. Samozrejme to vydajú pod iným názvom. :D
Pretože Core majú ten unifikovaný sheduler, ktorý pravdepodobne neškáluje nad 8 portov (preto sa musí AVX512 deliť o port s kopou ďalších inštrukcií). Na druhej strane, Atomy majú dedikované shedulery, podobne ako ZEN alebo POWER, takže teoreticky by tam mohol Intel nasekať toľko pipeline, ako je v POWER9.
"Takové CPU by možná dokonce mohlo obnovit zájem výrobců Androidích tabletů o Atomy, případně odradit výrobce těch Windowsích od pokukování po čipech ARM."
Problém už u Apollo Lake je absence variant s nízkým TDP (ekvivalent xN-8xxx cherry trail). V důsledku chybí opravdu malé a levné notebooky/tablety s novou generací malých jader (ekvivalent Surface non-pro nebo Lenovo Miix 320). Zvyšování IPC směřuje ještě více směrem od malých zařízení, takže otázka, co s tím v inelu zamýšlí. Jestli spíše nechtějí jít do lowend desktopu proti Bristol Ridge.
Intel Gemini Lake Block Diagram and Yet More Info
http://www.cnx-software.com/2017/08/14/intel-gemini-lake-block-diagram-and-yet-more-info
Stále ide Jan myšlienkou, že "atomy" majú byť pre tablety, telefony nejak mu to z minulosti nedá.
Paradoxne najvýkonnejšie dokonca s brand name Atom bude/je platforma Intel Denverton s tou istou CPU microarchitektúrou Intel Goldmont Plus !
Intel to proste už pri Goldmonte (Apollo Lake SoC) zarzal a drží sa troch segmentov:
• J-series (dessktop) Celeron J3355, J3455 a Pentium J4205.
• N-series (notbooky t.j. mobilný) Celeron N3350, N3450; Pentium N4200.
• E-series (embedded) Atom x5-E3930, x5-E3940; Atom x7-E3950.
Pri serverovej Atom C3000 preskočil Goldmont a nasadil rovno Goldmont Plus
• C-series (Server) Atom C3338, ďalšie verzie pribudnú čoskoro up to 16C/16T viď. nižšie link
Vlajková loď:
Intel Atom Processor C3955 (16MB Cache up to 2.40GHz)
atď.
https://downloadcenter.intel.com/product/97941/-Intel-Atom-C?pg=9&keyword=Intel
Additional selections available... (všetky Intel Atom Processor C3000 Series processors sú tam).
A teraz kacírska myšlienka síce veľmi zjednodušene resp. otázka pre extrahardwarákov:
Je Goldmont Plus (4-wide decode) odpočiatku len nedodelaný Goldmont (3-wide decode) a Goldmont (3-wide decode) bol len priškrtený-nevyladený-nedodelaný Goldmont Plus (4-wide decode) napr. s AVX/AVX2 (+1-wide decode +zdvojená L2 cache) ?
Pomôžem si napr. VIA Nano CNA (1000/2000 Series) čo bol napr. (3-wide decode) avšak len so SIMD up to SSSE3 a ani nie do roka prišla revízia CNB (3000 Series) so SIMD up to SSE4.1, VT virtualization technology a mnohými ďalšími vylepšeniami - optimalizáciami na úrovni microarchitektúry.
IMHO jestli má něco smysl, tak uvádět u dekodérů počet instrukcí, které zhltnou za takt, ne bajty. Bajty dávají naopak smysl u RISCů jenom shodou okolností proto, že tam jsou instrukce stejně dlouhé. Počet bajtů by byl směrodatný u fetch, ne?
Jinak to AVX není jen o počtu ALU pro ten vektor, i když to taky zvedne tu dynamickou spotřebu. Oni tam asi hodně proudu žerou ty rozšířené datové cesty a registry. To CPU by mělo být schopné tu infrstrukturu dynamicky vypínat a zapínat, aby se šetřilo energií, ale úplně dokonalé to nebude a nějakou výhodu to třeba tomu Applu, který má jen 128bit SIMD (Neon), nebo Zenu (128bitové jednotky pro SSE i AVX/AVX2) přihrává.
To je pravda. Záviselo by to na tom, jestli tentokrát budou varianty s nižším TDP. U Apollo Lake taky měly být (jmenovalo se to Broxton), ale Intel je zrušil loni, i když asi byly v podstatě hotové (embedded Broxton na trh šel). Jestli se teď vrátí, zatím těžko říct, no už to předchozí rozhodnutí bylo dost těžko pochopitelné, teda aspoň zvenku.
Ok máte pravdu, tak aká je šírka fetch z L1i?
Pri RISC to je jedno, v x86 to jedno nieje pretože také Skylake dekóduje maximálne 5 inštrukcií (ak sa nemýlim) ale šírka fetch je len 16B, takže sa to nedostane na peak výkon ani v 386 kóde (ak rátame s 32b inštrukciami). Pokiaľ sú tam teda x64 inštrukcie, alebo nejaké AVX (ktoré ide až do 15B na inštrukciu) tak sa tá maximálna priepustnosť drasticky znižuje.
Tak chápete prečo sa nato pýtam v spojitosti s dekóderom? ...či to náhodou nieje len 8B na takt.
A to so spotrebou AVX, nevravím že nie. (pardon že to tak vyznelo) Však všetci dobre poznáme spotrebu Intelov bez a s AVX2. Ale tie latencie a priepustnosti tiež zrobia svoje. A scheduler...
Mám pocit, že Intel v rámci kanibalizační hrůzy raději neprodá "výkonný" x86_64 CPU za 50US$ a dobrovolně přepustí místo snaživému ARMu, než aby jen ve snu připustil masové snížení průměrné ceny realizovaného desktop/ntb CPU (v hladině 1x0-2x0US$ ?). Otázkou je, zda mu to případný nástup APU/ntb Zen odvozenin i nadále dlouhodobě dovolí.
Pre Embedded má Intel (Apollo Lake SoC) Intel Atom x5 a x7 E3900 - Series
• Intel Atom® x5-E3930 Processor 2MB Cache, up to 1.80 GHz, 6,5W, 2C/2T
• Intel Atom® x5-E3940 Processor 2MB Cache, up to 1.80 GHz, 9,5W, 4C/4T
• Intel Atom® x7-E3950 Processor 2MB Cache, up to 2.00 GHz, 12W, 4C/4T
zdroj: https://www.intel.com/content/www/us/en/embedded/products/apollo-lake/overview.html