https://x.com/Kepler_L2/status/1787959708156129512
Intel měl udělat další revoluční změnu a ty svoje Atomy hodit na non x86 architekturu. To by teprve nastala "zmena paradígmy" a těch tapet co by se tu najednou vyrojilo
10. 6. 2024, 12:54 editováno autorem komentáře
Rybka na PCT píše ... hmm
Pokud jste se podivovali, proč Intel opouští hyperthreading, tak se objevilo vysvětlení, že ano, hyperthreading funguje, ale při poměrně malém přínosu pro celkový nárůst výkonu systému stojí poměrně velkou plochu křemíku, což se negativně promítá do efektivity, respektive do úspornosti provozu. Současný trend míří k tomu, že je jednodušší mít větší počet úsporných jader než menší počet hyperthreadingových jader, což je celkem rozumné vysvětlení: Nejde o to, že by technologie nefungovala, ale nová filozofie architektur nás vede k lepšímu používání křemíku.
Těch 5% je myslím číslo, které se traduje už od Pentia 4 HT a používá se hlavně na ilustraci. Ve skutečnosti ale cena v ploše křemíku a komplexitě validace i výkonnostní přínosy musí být architekturu od arcitektury odlišné. Nepamatuju si, jestli AMD uvádělo nějaký ilustrační číslo k Zenu, ale když teď Intel pro Lunar Lake/LIon Cove nějaká data uvádí, tak bych jim dal přednost před těmi ilustrativními obecnými 5 %.
Jestli je pravda, že se SMT vyplatí, nebo je pravda, že se nevyplatí... tak bych tu otázku nepokládal. Není to problém, který by měl odpověď typu ano/ne.
Je to kompromis, kde na obou stranách jsou nějaké výhody a nevýhody, takže jedni architekti si mohou zvolit, že to chtějí a druzí že radši ne a zkusí investovat úsilí a tranzistory do jiných technik.
10. 6. 2024, 20:25 editováno autorem komentáře
Ja mam pocit, ze k vyuziti HT a jeho prinosu, snad u Intelu neni nikde ani carka.
AMD pokud si to dobre pamatuji, melo o neco lepsi implementaci, takze tam se v plnem MT dosahovalo minimlane vyssi jednociferne procenta vykonu navic, nez u Intelu. Mozna dokonce i nizka dvojciferna.
Myslim ale, ze obecne se ma za to, ze naklady na kremik navic, ktere HT vyzaduje jsou/byli "nizsi", nez "prinos" HT v MT.
Zajimve by bylo vedet opravdovy duvod, proc to Intel nema. Osobne jim ten marketing nezeru, na to maji prilis spatnou povest.
10. 6. 2024, 22:05 editováno autorem komentáře
Jane myslíš, že tvoje triezvo - racionálne zdôvodnenie dokáže akceptovať cca 30% tých, ktorí majú svojho Lieblinga, ktorý pokračuje s SMT (HT) alebo budú radšej v dnešnej postfaktuálnej dobe sa prikláňať ku konšpirovaniu a pod. ?
Obdobne Jane v tomto kontexte, myslíš či dokáže prijať cca 30% tých, ktorí majú svojho Lieblinga, ktorý pokračuje s AVX-512 vo vzťahu k tvojmu triezvo - racionálnemu zdôvodneniu prichádzajúcej podpore AVX1O (z článku : Řešení problémů se SIMD na malých jádrech, ale možná také umíráček AVX-512) alebo opäť v dnešnej postfaktuálnej dobe použijú skratku ku konšpiráciam a pod. ?
Osobně si myslím, že big.LITTLE má význam skutečně jen u mobilních produktů. U Intelu vyloženě nutnost, když malá Intel jádra jsou téměř stejně rozměrná jako AMD ZEN. Docela by bylo zajímavé srovníní s ZEN c jádry. Tím že k výkonu ZEN potřeboval Intel u velkých jader 4x větší plochu. Protože zpočátku efektivnější byla právě ta velká. Čili úplně blbě ve srovnání s ARM, kde malá jádra jsou opravdu efektivnější a velká tedy výkonnější na úkor efektivity. U ARM tedy dávají smysl i 3 stupně. U Intel to teprve začíná dávat smysl, nicméně to zase lehce potopí propojením, kdy malá jsou po čtveřicích. AMD se už před lety neučilo jádra spojovat po osmi, proč to Intelu nejde?
Hmm, koukám se na to znova a teď tam ten údaj o ploše nevidím.
Pokud tomu dobře rozumím, tak HT podle Intelu dává +30% (mnohovláknového) výkonu při stejném taktu, i když vzhledem k zvýšení potřeby (až o 20%?) může takt klesnout, při ekvivalentní spotřebě je výkon vyšší o míň.
Jádro zcela bez HT podle něj může mít o 15% lepší energetickou efektivitu když se hledí jenom na zpracování jednoho vlákna. Ovšem když by se to posuzovalo v mnohovláknových aplikacích, tak už to má být jen o 5 %. V mnohovláknovvých aplikacích podle Intelu odebráním HT teda pořád je možné zlepšit energetickou efektivitu tím, že se sníží spotřeba (i když výkon taky). Ale už to nevychází dobře, když se přihlíží k ploše jádra, protože v mnohovláknových aplikacích podle Intelu optimalizované jádro bez SMT má o 15 % horší výkon v přepočtu na zabranou plochu na čipu (objevily se nějaké zvěsti, že serverová verze Lion Cove by mohla HT zase mít, jestli je to pravda, tak to bude právě z tohohle důvodu).
Pokud přidání HT do jádra takhle zlepšuje výkon na jednotku plochy o 15 %, ale výkon samotný o 30 %, tak mi z toho vychází, že by cena mohla být +10% velikosti jádra. Ale nevím, jestli to počítám plně správně a jestli ty údaje, co měl Intel v prezentaci, jsou dost přesné a relevantní.
Asi to budou údaje buď pro simulaci/odhad verze jádra Lion Cove, která by HT měla, nebo pro jejich předchozí jádra. Je možné, že AMD by to vycházelo trošku jinak. AMD má IIRC o dost menší plochy velkých jader než Intel.
Jinak se ovšem nárůst výkonu i nárůst spotřeby u HT / SMT můžou určitě lišit i aplikaci od aplikace, takže tahle matematika asi vychází jinak pro některé serverové úlohy a jinak pro některé běžné aplikace nebo hry.
"Těch 5% je myslím číslo, které se traduje už od Pentia 4 HT a používá se hlavně na ilustraci."
ano to je pravda a hlavně tohle číslo se týkalo jednojádrové architektury, které byla vydaná před 23 lety a přesto se tím číslem operuje , jako by to mělo platit napořád a nedošlo k žádnému vylepšení té technologie :-)
napřklad Ivy Bridge : "Vzhledem k faktu, že procesor podporuje Hyper-Threading (dále jen HT), je nezanedbatelná část výpočetní pipeline zdvojená a napevno přiřazená právě dvěma vláknům pro případ zapnutého HT. Pokud je ale HT vypnutý nebo probíhá náročná úloha jen v jednom vláknu, jsou tyto obvody na nic a nevyužité. Intel nyní tuto skutečnost změnil. Prostředky se nyní alokují dynamicky dle zatížení. Pokud bude spuštěna úloha v jednom vláknu, přidělí se vše jen jednomu vláknu a žádné (nebo jen málo z nich) obvody v jádru nezůstanou nevyužité"
dále Haswell: u virtuálních vláken měl k dispozici kromě rozšířené logiky scheduleru také vlastní fyzickou výpočetní jednotku (ALU) a vlastní volný store port, což při vytížení výpočetní pipeline na fyzických jádrech nemělo vést k poklesu výkonu HT vláken z důvodu nedostatku volných prostředků.
"What is not talked about is the “Frontend”, if equal to Ivy bridge (Cisc instr 4+1) no dramatic improvement in single thread, but any improvement will be perceived in HyperThreading to have more execution resources available in the backend"
asi bych toho našel víc, ale nechce se mi to hledat ..... myslím, že pro ilustraci to stačí.
"...nezanedbatelná část výpočetní pipeline zdvojená a napevno přiřazená právě dvěma vláknům pro případ zapnutého HT..."
To je docela slušné nepochopení. Ve skutečnosti se to zdvojení týká frontendu, který ty HP prostředky, které přímo provádí ty instukce řídí. Prostě jim přiřazuje dekódované mikroinstrukce.
Dokonce existovala i jednodušší forma multithreadingu, která by klidně fungovala i na i80286.
To rozdělení zdrojů může být různé - statické, kdy jedno vlákno bude mít vždy jen polovinu prostředků, i když druhé není aktivní. To se ale používá minimálně, IIRC už u Zenu 1 byla jenom jedna část při aktivaci SMT takhle rozdělená natvrdo.
Většinu věcí dnešní procesory rozdělí až když je druhé vlákno opravdu aktivní, a to buď přesně 50:50, nebo dynamicky, kdy jedno vlákno může brát větší podíl toho prostředku, pokud je náročnější než to druhé vlákno. Každopádně tyhle dvě řešení nesnižují jednovláknový výkon (pokud ponecháme stranou, že stojí tranzistory navíc).
Pokud bych se díval, zda se vyplatí, podívám se na procesory tvůrce, tedy IBM, kde na multithreadindu makali od 50. let. Mainframové TELUM, tedy pro nasazení kde je nutná jak nízká latence, tak maximální zabezpečení - multithreading umí. POWER10 umí dokonce dle konfigurece 4 nebo 8 vláken na jádro.
Zamyšlení o ploše jsem rozepsal jinde a nebudu se opakovat. Ale vezmu to jinak, SPARC (Sun Microsystems a Fujitsu) a IBM v době kdy rostl počet jader na CPU zvyšovali současně počet vláken. U DEC Alpha to bylo v plánu. ARM s tím taky počítali. Intel to zavedl u P4 a Itania, je možné že architektur bylo ještě víc. A dělali to v době, kdy plocha CPU byla dražší než dnes. I AMD to vlastně specificky udělalo ještě před ZEN u Bulldozeru - jen to nebyl nejlepší způsob. Intel ale měl taky nejvíc "výkonových optimalizací" a tedy nejvíc problémů s bezpečností. Dost na to, aby mohli chtít HT opustit. Ale taky je možné, že to udělají jen u spotřebních CPU a u velkých Xeonů zůstane. To ještě nevíme.
To sice amo, ale AMD taky musí myslet na to, že ta jádra musí upotřebit taky v serverech a pracovních stanicích. Tady ukazuje na to, že Intel ruší HT a říká se jaký nemá smys, ale klidně to může být jen tím, že Intel má problémy i implementací. A nebo udělal nová jádra a zatím je má jednodušší a časem se k HT třeba chce vrátit. Já stále vycházím z toho, že HT v tom křemíků mělo fungovat, ale je vypnuté. Kdyby Intel HT chtěl zrušit, proč si s ním tedy dává práci?
Osobne bych se taky priklonil k tomu, ze ma Intel problem ten celkovy koncept kockopsa B-L-HT na nove architekture vyladit. Aby nemusel odkladat produkty, coz by pak bylo jeste horsi, tak radsi odsekne to, v cem vidim nejmensi zlo a jede. Je samozrejme mozne, ze dalsi architektura (pokud uvede rentable units) uz HT opravdu mit nebude, ale tohle neni pripad AL/LL.
Ono bez HT ma Intel i docst velkou nevyhodu v oblasti serveru..
11. 6. 2024, 09:53 editováno autorem komentáře
Osobne si myslim, ze si tohle z palce necuca. Historie jeho leaku ukazuje, ze dostava infa, zvlaste o budoucich architekturach a to jak u AMD , tak Intelu.
Co by vydelal na tom, ze si kompletne vymysli RU, to nevim.
Zaroven to ale nevylucuje ani to, ze Intel muze uvest neco jineho nebo ma/mel tech veci rozdelanych vic.
Mne na tom humbuku okolo LL/AL proste nedava smysl, aby se Intel dostaval sam bez duvodu do konkurencni nevyhody, kdyz mu roky vsude klesaji prodeje napric spektrem jeho produktu. V retailu se na nekterych trzcih dostal do pozicie drivejsiho AMD. Servery ztraci ctvrtleti za ctvrtletim, jedine kde se drzi, diky svym vazbam (a mozna male obchodni razanci AMD) jsou notase, ale i tam ztraci.
11. 6. 2024, 10:21 editováno autorem komentáře
ja netvrdím že nemá informace, nějaké informace zřejmě dostává a některé nemohou být legitimní (viz. ZEN5 slide), problém je že k tomu kreativně přidává vlastní úvahy a část těch informací je naopak smyšlená nebo pochází z pochybných zdrojů a část informací je minimálně nesprávně interpretovaná.
Kdysi měl zajímavé leaky kanál "AdoredTV" a dlouhou dobu mu to celkem vycházelo, než ho prostě jeho vlastní informátoři začali trolit a dopadnul tak, že dnes po něm neštěkne pes. Stejně usměvný je kanál Red Gaming Tech, kterému ale taktéž nelze upřít, že určitá část informací pochází z legitimních zdrojů, ale zrovna v jeho podání je daleko více očividné, že většina jeho informací je založena na spekulacích a drbech a mnohem méně technicky založené než videa od MLID. Jeho videa "Broken Silicon" jsou často hodně zajímavé a v podstatě zajímavější než ty leaky, v tomhle ohledu je spíš takový "story teller" než "leaker".
11. 6. 2024, 10:46 editováno autorem komentáře
Jeste pripojim jednu uvahu
Kdyz jsem si ten podle OKNA zkusel udelat nastrel MT vykonu AL 8+16 vs Zen5 16, tak podle toho jak tomu clovek nastavi parametry frekvenci a da rekneme Zen5 1C = LL 1C a LL 1P = 0.85 1C, tak ono ten AL nevypada vubec blbe v MT. Pokud by se nejspis srovnavali oba chipy nez HT, tak by AL vyhral. Takhle se to ale s absenci HT u Intelu (pokud nebude mit HT), nejspis preklopi na stranu AMD.
11. 6. 2024, 10:28 editováno autorem komentáře
To SMT8 u Powerů je ale dost možná motivované hlavně snahou, aby CPU bylo atraktivnější pro per-core licencovaný serverový software. Vypadalo to, jako by to byly prostě dvě SMT4 jádra spřažená dohromady, možná jenom na úrovni firmwaru, nedivil bych se, kdyby to byl stejný křemík (při těch objemech, které IBM vyrábí...)
Ono teda HT / SMT obecně je asi v momentě, kdy se musím ohlížet na takovýhle software, najednou velmi výhodná věc. Je to další faktor, který se musí zvažovat. Když AMD používá serverové čiplety i v desktopu, tak by si odebráním SMT u Ryzenu poškodilo Epyc.
11. 6. 2024, 14:55 editováno autorem komentáře
To nevím, docela mne zaujala implementace u SPARC architektury. Tam se totiž rozdelil vývoj na výkonná jádra bez MT pro superpočítače s MT pro servery. A první provedení rovnou s 8 vlákny mělo 8 ALU a jedinou FPU na ta vlákna. Druhá generece už byla rozumnější - na 8 vláken 16 ALU a 8 FPU. V historii bylo dost zajímavých procesorů...
Navrhnout jádro úplně bez SMT podle Intelu vede k lepší energetické efektivitě v jednovláknových aplikacích. Pokud by měli jádro s implementací SMT, která se jenom při bootu vypne, tak ten přínos bude o dost nižší.
Jako když se nad tím člověk zamyslí, tak to určitě může mít smysl, pokud se chceme soustředit na klientské aplikace - mobily, notebooky, herní PC atd. OCž u Arrow Lake a Lunar Lake platí. Platí to i procesorů Applu nebo Cortexů. Možná, že Apple nezkoušel SMT kvůli tomuhle. I když u nich by to byla implementace z nuly, takže by to měli těžší a to asi taky je faktor.
Ono je taky důležitý, že to HT Intel nemá na malých jádrech, takže ty HT vlákna se používají až úplně nakonec, tudíž u méně škálujících aplikací se nemusí vůbec využít. Kdyby Intel neměl big.LITTLE, tak si nejspíš HT u těch Lion Cove nechá.
V té prezentaci jsem zachytil něco o tom, že by to jádro Lion Cove mělo mít pružnější návrh, takže by asi mělo být snazší dělat modifikace. Takže možná opravdu budou dvě verze, kdy klientská bude optimalizovaná na jedno vlákno bez HT a serverová bude mít přidaný HT.
Ono Intel už od Skylake tyhle dvě verze jader dělal, ale tam bylo vidět, že to není tak pružné a používal přitom zjednodušení, kdy třeba Skylake-SP/X mělo přilepenou cache navíc a jednotku AVX-512 navíc vedle toho původního půdorysu jádra Skylake, aby se minimalizoval objem změn.
Serverová verze Lion Cove bude patrně umět AVX-512 a AMX, takže něco se tam přidávat bude. Možná to tentokrát bude hloubkovější úprava a přibude i SMT. Možná, že "zdrojový kód" s tím počítá, ale návrh má možnost "zkompilovat" jádro s SMT i jádro bez SMT.
"Intel také přešel od používání proprietárních návrhových nástrojů k průmyslovým standardním nástrojům optimalizovaným pro jeho použití. Staré architektury Intel byly navrženy s "Fubs" (funkčními bloky) o desítkách tisíc buněk sestávajících z ručně kreslených obvodů, ale nyní se přesunula na použití velkých, syntetizovaných oddílů stovek tisíc až milionů buněk Odstranění umělých hranic zkracuje dobu návrhu, zvyšuje využití a snižuje plochu."
"To také umožnilo přidat do návrhu více konfiguračních bodů, aby se rychleji oddělily přizpůsobené návrhy specifické pro SoC, přičemž hlavní architekt řekl, že to umožňuje větší přizpůsobení mezi jádry používanými pro Lunar Lake a Arrow Lake. Díky této metodologii návrhu je také 99 % návrhu přenositelných na jiné procesní procesy, což je klíčový pokrok, který zabraňuje nechtěným komplikacím, které jsme viděli v minulosti při portování na jiné výrobní procesy u nových architektur intelu"
https://x.com/aschilling/status/1797844596334231683/photo/1
Takže na tom něco bude
S tou plochou křemíku to moc neodpovídá tomu, co předvádí s ZENxc jádry AMD. Kdyby tomu tak bylo, přínos byl malý a plocha navíc velká, proč u c jader AMD spíše obětuje maximální takt a L3 cache? A nebo ještě líp, s nižším taktem, menší L3 a bez multithreadingu s tím, že jinak by uměly totéž a bylo jich proti 8. lelkým ne 16 ale třeba 20 nebo 24. Jenže to tak asi nebude. Ten "velký" nárůst se týká jen frontendu, který místo jednoho vlákna hlídá dvě. Jinak požadavky na dekodéry a další zůstávají stejné a frontend samozřejmě taky.