AMD potvrdilo nestabilitu Linuxu na některých Ryzenech, bude se řešit reklamací

10. 8. 2017

Sdílet

 Autor: Redakce

V červnu jsme zde měli zprávu o chybě procesorů Ryzen, která se projevovala při vytížení všech jader kompilací softwaru obvykle v GCC, a to na platformě Linux. Od května nebylo o této nestabilitě známo nic nového, zdá se ale, že bude závažnější, než se zdálo. AMD k ní totiž teď vydalo vyjádření, podle kterého ji bude s postiženými uživateli řešit výmenou procesoru v rámci reklamace.

Tento problém se má vyskytovat na Linuxu, případně podobných operačních systémech, jako je například FreeBSD. Neměla by naopak postihovat uživatele Windows. Problém se projevuje segmentační chybou („segfault“) neboli porušením ochrany paměti. Nejde o chybu vyskytující se při typickém používání a výpočtech (jinak by asi byla zjištěna před vydáním), avšak lze jí zreprodukovat při kompilaci velkých softwarových projektů na všech jádrech procesoru. Ze začátku tak byl problém pozorován hlavně uživateli distribude Gentoo. Na Windows kompilátor GCC (běžící skrze Cygwin nebo Mingw32) problémy nedělal.

Podle AMD je však chyba přesto hardwarová, ovšem vzniká za komplikovaných okolností, které ztížily její nalezení. Zřejmě jde o typ problému, kde vlivem kombinace napětí, kvality napájení a taktu při interakci určitých stavů čipu některá část není dokonale stabilní a nepracuje dle specifikací (AMD to označuje jako „marginality“, čímž se asi myslí, že se CPU někde překročilo rezervy pro správné fungování, tedy „margins“). A tento problém zřejmě proklouzl testovacím systémem, který stabilitu a bezchybnost čipů prověřuje. Zdá se také, že problém nemají všichni uživatelé, ale jen někteří, procento ale těžko odhadnout.

Řešením na straně výroby tak asi bude úprava testování čipů a/nebo vývoj nového steppingu. Problém by teoreticky mohl odstraňovat už stepping B2, který se jako první objeví v procesorech Epyc. Oprava pro už postižené prodané čipy však zatím není a AMD webu Phoronix, který se věnuje hardwaru ve spojení s Linuxem a open source softwarem, zaslalo sdělení, podle kterého bude problémy jednotlivých uživatelů řešit individuálně výměnou CPU skrze reklamační proces. To znamená, že pokud Linux používáte a při kompilování softwaru jste na segmentační chyby narazili, můžete CPU dát do reklamace a vyžádat si náhradní kus.

Snímek čipu Summit Ridge, na němž jsou založené osmijádrové Ryzeny Snímek čipu Summit Ridge, na němž jsou založené osmijádrové Ryzeny

Chyba by se neměla vyskytovat deterministicky na každém Ryzenu, alespoň podle AMD – jinak by asi také nemohlo postižené kusy vyměňovat opět za stejné modely Ryzeny. Je naznačeno, že jde problém obzvlášť počtečních kusů, ale úplně na plná ústa toto ujištění v článku od Phoronixu bohužel nezazní. Minimálně přes reklamace by se snad měly distribuovat ověřené kusy, pokud tedy výměnu neprovede jenom samotný obchod a zpátky nedostanete nějaký starší procesor, který ještě proti této chybě zkoušen nebyl (bude dobré při vyplňování reklamace důvod pořádně popsat a případně odkázat třeba na článek na Phoronixu, protože každý lokální prodejce nemusí být informován). Zda má u nás smysl konktovat přímo mezinárodní podporu AMD, jak firma doporučuje, ale nevím, jelikož přímo u nás AMD žádné přímé servisní zastoupení nemá.

bitcoin školení listopad 24

Epyc a Threadripper jsou prý v suchu

Podle AMD ale problémem určitě nejsou postižené procesory Epyc pro servery (o kterých víme, že mají novější revizi čipu, B2). Údajně ale nemá postihovat ani Threadripper, který prý naopak ještě má revizi čipu B1. To by možná mohlo nasdědčovat, že chyba skutečně nepostihuje křemík originálních Ryzenů univerzálně, ale že by snad mohla být problémem slabších exemplářů a úprava testování ji odchytí. V takovém případě by se snad časem mohla u nově prodávaných CPU přestat vyskytovat úplně – tedy až v obchodech dojdou starší kusy, které odešly z továrny předtím, než bylo testování upraveno. Zda to tak ale skutečně bude takto, těžko říct, jelikož v podobných případech se firmy většinou snaží o problému dát co nejméně informací a držet ho pod kobercem. Nicméně oficiální uznání reklamovatelnosti by vám mělo pomoci, pokud byste na chybu narazili.

Zda se eventuálně ještě objeví nějaká oprava na úrovni mikrokódu, není jasné. To, že zatím ohlášena nebyla a místo toho se reklamuje, je patrně znamení, že takové řešení nemusí být možné. Nicméně problém je údajně stále analyzován, takže zcela vyloučeno nějaké další ošetření asi není.