Tento týden Intel přišel s vysvětlením, co se děje s procesory Raptor Lake (Core 13. a 14. generace) pro desktop, u nichž je široce hlášena nestabilita, pády her a postupná ztráta fungování. Podle vyšetřování Intelu dochází k tomu, že do procesoru se dostává příliš vysoké napětí, které ho postupně poškozuje (nevratně, bohužel), až přestane být stabilní. Intel k tomu neřekl moc detailů, ale ty teď prosákly na internet a konečně víme víc.
Zdá se, že Intel zřejmě s partnery, jako jsou výrobci desek a počítačů, pod NDA k problému s přílišným napětím poskytl víc informací. Web igor’sLAB se k těmto dokumentům dostal a zveřejnil z nich některé úryvky a informace.
Podle těchto interních dokumentů Intelu problém postihuje zejména modely Core i7 a Core i9 13. a 14. generace – jak 125W řady K, tak mainstreamové 65W verze. Dokument pokrývá jen desktopové verze Raptor Lake, nikoliv serverové, embedded a notebookové verze, ale je možné, že separátně pro ně také existují hlášení o chybách, toto tedy nemusí být potvrzení toho, že nemají problémy.
Jak je to se zvýšeným napětím?
Podle analýzy Intelu mají analyzované nestabilní procesory (které uživatelé poslali zpět v rámci záručních výměn kvůli problémům s nestabilitou), typicky zvýšenou tzv. hodnotu Vmin, což znamená minimální provozní napětí. Tím se myslí, že se u nich zvýšilo napětí, které musí být nastaveno, aby stabilně fungovaly, oproti očekávaným hodnotám, které by měl takový procesor vykazovat (a měl je z výroby). Jak asi sami znáte z přetaktování, pokud určitá frekvence čipu není stabilní, je třeba přidat napětí. V tomto případě ale tato nutnost přidání napětí nastává už i bez přetaktování.
Tato zvýšená úroveň minimálního vyžadovaného napětí je podle igor’sLAB (respektive citovaného dokumentu od Intelu) projevem poškození čipu, k němuž došlo tím, že v průběhu používání byl vystaven zvýšeným napětím – tedy těm abnormálně vysokým napětím, které Intel označil za viníka i ve veřejně dostupném prohlášení vydaném tento týden a jejichž vznikání má opravit patch mikrokódu příští měsíc.
– Intel observes a significant increase to the minimum operating voltage (Vmin) across multiple cores on returned affected processors from customers.
– This increase is similar in outcome to parts subjected to elevated voltage and temperature conditions for reliability testing.
Podle Intelu se podobné zvýšení Vmin dá pozorovat, když se procesory podrobují zrychlenému testování za zvýšeného napětí, frekvence a teploty, což má simulovat dlouhodobý provoz. Při takovém testování je ale degradace očekávaná, zatímco při běžném fungování ne.
Kde se škodlivé zvýšené napětí bere?
Pokud jde o ona nesprávně vysoká napětí, která degradaci čipu (a pozorované zvýšení Vmin) způsobují v běžném fungování, dokument Intelu ukazuje, že zřejmě není problém ani tak ve vysokých zátěžích a dlouhém namáhání procesoru při spotřebách nad 250 W, ale paradoxně možná naopak za nízké spotřeby v klidu mimo zátěž. Na vině je zřejmě to, že nebezpečné vysoké špičky napětí vznikají na kratičký okamžik tehdy, když je procesor probuzen z úsporného stavu k obsloužení nějakého procesu a poté je zase uspán.
– Even under idle conditions at relatively cool temperatures, sporadic elevated voltages are observed when the processor is resumed from low power states in order to service background operations before entering a low power state again.
– At a sufficiently high voltage, these short-duration events can accumulate over time, contributing to the increase in Vmin.
Mohou být úsporné režimy větší problém než plná zátěž?
Pokud se potvrdí, že poškození čipu vysokým napětím spouští přechody mezi úspornými režimy a boosty, nebude to vlastně překvapivé zjištění. Hodnoceno ze zpětného úhlu, inženýři Intelu nejspíš velmi pečlivě ověřovali, zda procesor Raptor Lake zvládne trvalé vysoké zátěže a s nimi spojená napětí a proudy (a vzdor některým populárním představám na těchto věcech v Intelu určitě nepracují neschopní idioti).
Nicméně z hlediska stability procesoru jsou dnes asi nejhorší riziko právě přechody mezi aktivitou a úspornými režimy, neboť při skokové změně příkonu z maximálně jednotek wattů (a na větvi napájející jádra CPU možná prakticky nuly) na 30–40 W a tomu odpovídajícím vysokým proudům, které procesor potřebuje na maximální jednovláknové boosty, se napájení může dost rozkolísat a napětí není stabilní. Jde asi o mnohem komplikovanější a problematické stavy než za trvalé vysoké zátěže.
A k dovršení neštěstí dnes chceme, aby náběh turbo boostu na maximum (tedy například 5,8–6,0 GHz u nejrychlejších Raptor Lake) byl co nejrychlejší kvůli responzivnosti a tomu, aby jednovláknový benchmark měl maximální výkon od počátku. Regulátor napětí napájející procesor tedy nemá moc času se připravit. Kolísání napětí může způsobit, že napětí na chvilku vylétne výš (což může být nebezpečné pro čip), nebo spadne níž, což může vést k nestabilitě procesoru.
Toto je důvod, proč často na nestabilním PC uvidíte modrou obrazovku smrti ne při hraní nebo při stress testu, ale třeba jen se spuštěným prohlížečem webu nebo když jen tak jedete myší po ploše. Z tohoto důvodu přetaktovávači často vypínají úsporné © stavy, i když to vede k vyšším teplotám a spotřebám.
AMD se na problémy nestabilního napětí zaměřilo už v procesorech Carrizo s architekturou Excavator (2015), od nichž se odvíjí pokročilé řízení taktů, napětí a spotřeby na procesorech AMD Ryzen s integrovaným systémem ochrany CPU („FIT“), který by mimo jiné měl čip chránit před přílišným napětím a jinými hrozbami. Tyto ochrany a také integrování velmi velkého množství senzorů napětí, proudu a teplot do různých míst čipu jsou zřejmě to, co firmě AMD umožňuje jít u jednovláknových turbo boostů s napětím velmi na hranu, zatímco Intel v této oblasti patrně je pozadu a tolik se jí nevěnoval.
Slajdy k Voltage Adaptive Operation v procesoru AMD Carrizo ukazují pokles napětí, který ohrožuje stabilitu. Pokud ale dojte k překmitu směrem nahoru, může být ohroženo přímo fyzické zdraví čipu
Na ono rozkolísání napětí se dají aplikovat dvě pomůcky. AMD používá v Ryzenech metodu clock stretching, která rychle detekuje, že přichází propad napětí (V-droop) a posune další kmit hodinového signálu (efektivně to funguje jako snížení frekvence) dál v čase, aby proběhl až v momentě, kdy se napětí vrátí nad úroveň, kdy CPU pracuje stabilně. Pokud ale tato technika není dostupná (což je možná případ CPU od Intelu, pokud se nemýlíme), musí se procesor bránit tak, že používá vyšší napětí, než by musel, právě aby získal rezervu stability pro ony propady napětí.
Potíže nastanou tehdy, kdy procesor má ve specifikacích extrémní jednovláknové boosty, které samy o sobě vyžadují vysoké napětí už poněkud blízké nebezpečnému. Pokud se během rychlých náběhů z klidu do plného boostu přidává další napěťová rezerva, je už asi napětí hodně blízko nebezpečnému, takže jakékoli další zakolísání napětí směrem nahoru, třeba i hodně krátké, může vést k poškození. Taková neplánovaná přešvihnutí napětí se asi můžou přihodit z různých důvodů a problém s mikrokódem, který nyní Intel bude opravovat, byl ten, že je buď neměl ošetřené, nebo třeba řízení nedokázalo reagovat na bleskové změny napětí dost rychle.
Pomoci má zastropování požadavků napájení na 1,55 V
Podstatný detail v uniklém dokumentu je číslo, které dává trošku představu o tom, o jakých napětích se tady bavíme. Ona připravovaná oprava mikrokódu, která má od problémů pomoci, dělá právě to, že omezí maximální požadavek procesoru na napětí směrem k VRM desky, na hodnotu 1,55 V – takže předchozí hodnota maximálního přípustného požadavku asi byla vyšší. Takto vysoké napětí asi nebude procesor nikdy konzumovat moc dlouho, je asi požadováno právě jen na kratičké okamžiky při náběhu z klidu do boostu pro překlenutí oněch poklesů napětí. Dost možná se právě počítá s tím, že při zadání požadavku na 1,55 V současně bude probíhat Vdroop, takže reálně v procesoru bude napětí nižší.
Dokument uvádí, že Intel zatím opravu spočívající v omezení požadavků na 1,55 V ověřuje coby „potenciální nápravné opatření“, které má za cíl být připravené k dodání partnerům (výrobcům desek) v polovině srpna. Je to tedy evidentně přesně ta oprava, která byla už přislíbena i veřejně.
Řešení je známé. Otázka je, zda vyřeší všechno
Intel uvádí, že už má ověřeno, že ona zvýšená napětí, jejichž vlivu je procesor za provozu dlouhodobě podrobován, způsobují zmiňované zhoršení Vmin (a tím nestabilitu procesoru). Připomeňme, že naměřené zvýšení Vmin vypovídá o degradaci (poškození) čipu. Ovšem dokumenty upozorňují, že ještě není stoprocentně jisté, že tato stopa je jediným zdrojem problémů. Chyba s příliš vysokým napětím způsobeným požadavky procesoru je tedy potvrzená jako faktor způsobující degradaci (a následně nestabilitu) procesorů Raptor Lake, ale ještě není vyloučeno, že ve hře nejsou i další faktory, které degradaci separátně po vlastní ose také způsobují.
Dokument, nebo to, co z něj igor'sLAB ukázal, nezmiňuje možný destruktivní vliv vysokých napětí také během boostu při dlouhých zátěžích (a procesory Intel Raptor Lake už při vysokých jednovláknových boostech také používají napětí, která mohou vypadat hrozivě). Není ale vyloučeno, že Intel nakonec bude muset přiznat, že problém je i na této úrovni. Uvidíme.
Oprava mikrokódu, která v srpnu vyjde, by tedy měla být legitimní a účinná, ale ještě není jisté, zda bude degradaci Raptor Lake zastavovat kompletně, nebo bude ještě třeba ošetřit další separátní zdroje takovéhoto poškozování čipu (pokud to půjde). Tato nejistota asi neznamená, že další zdroje určitě existují, striktně vzato jen nebyla vyloučena jejich existence.
Nezbývá tedy než celý průšvih dál sledovat. A také trvá doporučení, že procesory Raptor Lake vyšších výkonů je teď lepší nekupovat, dokud nebude jistota, že jsou jejich problémy vyřešené (bezpečné by ale měly být 65W modely Core i5, zatímco nad nimi už potenciálně začíná nějaké riziko, zdá se).
– While Intel has confirmed elevated voltages impact the increase in Vmin, investigation continues in order to fully understand root cause and address other potential aspects of this issue.
– While this microcode update addresses the elevated voltage aspect of this issue, further analysis is required to understand if this proposed mitigation addresses all scenarios.
Snížení výkonu? Důvod pro něj je, ale v praxi může být opravdu zanedbatelné
Další poznatek z těchto dokumentů je, že by přece jenom mohlo dojít k nějakému poklesu výkonu vlivem této změny. Pokud totiž Intel omezí napětí, které si procesor musí vyžádat v oněch situacích rychlého náběhu z klidu do boostu a zpět, také se kvůli tomu možná bude muset zpomalit i rychlost aktivace boostu, nebo se sníží jeho frekvence v prvních okamžicích. Toto může negativně ovlivnit benchmarky snažící se měřit responzivnost systému.
Intel uvádí, že dopad na výkon by měl být „minimální“, což ale neznamená, že nulový. A také jde o předběžné, nikoliv ještě důkladné testování, údajně na „malém množství benchmarků“. Ovšem pozor – v praxi opravdu nemusí jít o nic, čeho by se bylo třeba bát. Tímto popisovaným faktorem by totiž měly být ovlivněné jen krátké zátěže, protože se vždy bude projevovat jen krátký okamžik na začátku, poté rozdíl zmizí.
Jakákoli úloha běžící delší dobu by měla už mít chování nezměněné, v třeba 15sekundové nebo víceminutové zátěži se to snad více nebo méně rozplyne. Neměly by tak snad ani být ovlivněné hry (pokud nevytvářejí velmi nestálé zatížení CPU s pauzami v zátěži). I když je lepší nepředbíhat. Intel v poslední době dělal změn víc, jako například další opravu mikrokódu dotýkající se Thermal Velocity Boostu (relevantního na Core i9) a omezení limitů spotřeby na doporučené hodnoty. Dohromady tedy všechny tyto změny mohou mít jistý dopad na výkon ve hrách. Jaký, to se ukáže až po rozsáhlejším testování.
Dokument Intelu jinak také potvrzuje, že procesory, které jsou již nestabilitou postižené, se opravou mikrokódu neuzdraví. Toto je logické, vzhledem k tomu, že nestabilita je projev nezvratného poškození čipu, ke kterému již došlo.
Složitý problém, ne jednoduchý „fail“?
Tyto uniklé dokumenty tedy už dávají lepší vhled do toho, v čem může celý průšvih s procesory Raptor Lake spočívat – nebo minimálně co může být odpovědné za jeho část. Trošku to působí dojmem, že podstatou problému zde není konkrétní chyba nebo „bug“ v algoritmu v pravém slova smyslu, ale celkové chování dotyčného programu, a proto možná trvalo tak dlouho na příčinu přijít – nestačilo totiž prostudovat zdrojový kód.
To, že se musí snížit předtím zvolená hodnota maximálního požadavku na napětí, to naznačuje. Intel možná neponechal dostatečné bezpečnostní rezervy v řízení frekvencí a napětí, když se u procesorů Raptor Lake snažil dosáhnout co nejvyšších taktů a nejvyššího výkonu. Nebo řízení frekvencí a napětí v procesoru není dost precizní a dost spolehlivé. Je možné, že kvůli údajně hodně spěšnému a rychlému vývoji procesorů Raptor Lake nebylo dost času na skutečně dlouhé ověření spolehlivosti dotyčných mechanismů. Také je možné, že selhaly modely předvídající, jak velká napětí křemík procesorů dlouhodobě vydrží, nikoliv ten, kdo nastavoval limity v mikrokódu.
Ačkoliv teď bude Intel určitě hodně kritizován, je možné, že důvodem problémů nebyla žádná výrazná nekompetence nebo lajdáctví. Takovéto problémy se mohou asi někdy stát i při správných postupech a dobré snaze. Je sice možné, že nějaký nezdravý tlak, vedoucí k menšímu důraz na „jistotu“ ve prospěch maximálního výkonu, přispěl, ale zvenku to těžko spolehlivě zhodnotit. U těchto incidentů možná někdy jde i o smůlu, která by se mohla stát každému.
Zdroje: igor’sLAB, Tom’s Hardware