Já to řeknu jinak s tím HT:
Pokud se v rámci mezigeneračního přechodu IPC zvýší víc, než je ztráta vlivem odstranění HT při podobné spotřebě, vlastně o nic nejde. Pokud HT dokážou dohnat úspornými jádry, v pohodě.
Akorát teda to musí být zohledněné i v ceně, protože stejné procesory se stejným IPC a zapnutým HT prostě mají v určitých scénářích vyšší výkon.
Argumentovat neefektivitou křemíku mi přijde bizarní, tak buď mají hledat jiný materiál, nebo zefektivnit procesy.
Potíž je v tom, že to by znamenalo opravdu hodně máknout. Protože IPC není dáno pouze počtem ALU, AGU, Load/store a šířkou vekorů, jde právě o to ty jednotky nakrmit daty, správně odhadovat větvení, protože delší pipeline dělá větší ztrátu při chybě, taky je třeba mít dost široké datové cesty do a z cache ostatně i ty dekodéry. Pamatuju jak se se mnou někdo hádal, že nelze dekódovat víc instrukcí kvůli jejich variabilní délce. Jak je vidět, tak lze. Teď z hlavy nevím na kolika dekodérech Intel nebo AMD je. Čím širší jádro, tím menší je rozdíl, zda jde o x86, ARM nebo něco jiné.
S ohledem na to, jak pracné je u další a další generace získávat víc výkonu, zbavovat se technologie, která zvedá efektivitu. není rozumné. Navíc pokud přidáváte jednotky, zvedáte šířku vektorů, tak to stojí násobně víc tranzistorů, než ty jednotky řídit. Pokud by něco přidávalo víc tranzistorů ve frontendu, bylo by to hodně špatně. To nejsložitější ve frontendu jsou dekodéry a i těch už tam je kolem osmi. Protože frontend je složitější především tím, jak se rozšiřuje celé jádro, hlídat druhé jádro už tolik práce nedé. Dokonce si myslím, že jednodušších jader jako bylo Pentium 4, zabralo HT procentuálně víc tranzistorů, než třeba u Core i.