V květnu jsme tu měli zprávu o studii firmy Backblaze, která zveřejňuje statistiky poruchovosti pevných disků, provozovaných její službou. Když Backblaze začala uvádět také statistiky poruch SSD, které používá jako systémové disky serverů, vypadalo to nejdřív, že vykazují řádově lepší výsledky. Teď ale přichází nová čísla, podle kterých je to o dost horší a vypadá to, že nakonec úmrtnost SSD může být skoro stejná jako u HDD.
Na první pohled se může zdát, že SSD jsou o dost spolehlivější, jak uváděla předchozí zpráva od Backblaze (a náš o ní pojednávající článek). Backblaze například má statistiku, dle které je celková úmrtnost HDD, která tato firma provozuje ve svých serverech jako bootovací disk, 6,41 % v přepočtu na jeden rok. Tedy za rok může odejít až 6,5 % instalovaných disků. U SSD používaných jako bootovací disk je zatím statistika porouchaných zařízení jen 1,05% úmrtnost v přepočtu na jeden rok.
Backblaze má v datacentrech 1666 systémových SSD a 1607 systémových HDD, takže podíl je prakticky padesát na padesát. Ale je tu jistý metodický problém, který může zkreslovat poruchovost SSD a činit ji mnohem růžovější, než ve skutečnosti. Firma začala SSD nasazovat pozdě, až někdy od roku 2018, kdy začaly být malé kapacity (240–256 GB) velmi levné. Průměrný věk SSD je proto jen 14,2 měsíce (nejstarší mají 33 měsíců), naopak HDD jsou všechna z předchozích let a mají 52,4 měsíce neboli skoro 4,5 roku v průměru (tj. mnohá budou ještě starší). I ta vůbec nejméně stará HDD už mají vždy aspoň 27 měsíců.
Ona úmrtnost je na první pohled u HDD velká, těchto 6,41 % ročně znamená celkem 619 vyhozených disků za dobu, kterou statistika pokrývá. Je to ovšem za 3 523 610 odsloužených dnů. SSD „exlo“ v Backblaze zatím jenom 17, což z ní ve srovnání jako strašně dobré číslo, ale je to za 591 501 dní běhu. Kratší doba provozu je v číslu uvádějícím „anualizovanou“ (na jeden rok přepočtenou) úmrtnost sice normálně zohledněná, ale toto počítání pořád ignoruje důležitou věc: u HDD totiž velká úmrtnost přibývá s dlouhým věkem, disky se unavují nepřetržitým provozem v serveru (přičemž Backblaze pro tuto úlohu nevyužívala serverové modely určené pro 24/7 provoz).
Tím, že jsou ve statistice hlavně stará HDD, ale naopak relativně nová SSD, se jak uvidíte může srovnání hodně vychýlit. Backblaze mimochodem uvádí, že někdy v budoucnu uvede také studii o tom, jak moc věk zhoršuje spolehlivost HDD, což bude asi hodně poučné čtení.
Stejně stará SSD a HDD mají poruchovost podobnou
Každopádně pro lepší srovnání zkusili v Backblaze vzít data o poruchovosti HDD jen za dobu, kdy byl jejich průměrný věk podobný, jako nyní u SSD, a srovnat s tímto obdobím. Šlo období do Q4 roku 2016, kdy dosáhla systémová HDD průměrný věk 14,3 měsíce, bylo jich ve flotile 1297 kusů a měly dohromady naběháno 659 526 dne. A pro toto období najednou vychází úplně jiná charakteristika spolehlivosti: za tuto dobu disků umřelo jenom 25 a jejich poruchovost vychází jen na 1,38 % ročně.
Najednou je to tedy vlastně řádově stejná hodnota: pokud jsou HDD a SSD stejně stará a nacházející se v prvních dejme jednom až třech letech života, odumírají ve vcelku stejném počtu. Zhebavost 1,38 % je sice o třetinu víc poruch HDD než 1,05 % selhání ročně u SSD, ale je tu jedna věc, která naopak trochu hraje do karet HDD. Porucha HDD v této statistice znamená buď náhlou celkovou smrt (kdy ztratíte všechna data), nebo také preventivní vyřazení HDD, které Bakblaze dělá podle varovných signálů v parametrech SMART (vadné/realokované sektory, ale i další). V těchto případech je HDD ještě funkční a minimálně většina dat se dá přečíst, což je méně závažná forma poruchy. U SSD zatím toto preventivní odstavování firma z důvodu nedostatečných zkušeností nedělá a všechny zaznamenané poruchy SSD jsou tedy nejhorší případ totálního náhlého odchodu (kdy už tedy nešla přečíst data ze SSD). Ani jedno ze selhání SSD v této statistice jinak prý nebylo kvůli vyčerpání zapisovací životnosti NAND.
Poruchovost značně roste u několik let starých HDD
Pro ilustraci toho, jak na věku záleží, má Backblaze následující graf, kde je modře vyznačená úmrtnost HDD s postupujícím časem provozu a oranžově úmrtnost SSD. Jak vidíte, až na tu dejme tomu o třetinu lepší spolehlivost SSD (když pomineme určitou možnost statistické chyby a předchozí odstavec) se křivky na začátku hodně podobají. Pokud by se HDD nepoužívala pořád dál navzdory jejich rostoucímu věku, nevycházela v roce 2014 až 2017 o tolik hůř než SSD v letech 2018 až 2021. A vypadá to, že i u SSD by se mohla začít s věkem poruchovost trošku zvyšovat. Zatím je otázka, zda by při vysoké zátěži dokonce nemohlo někdy dojít i na vyčerpání životnosti přepisů, pokud by se používala několik let?
Data Backblaze tedy zatím ještě nelze použít k výroku, že by byla SSD řádově (nebo aspoň 6×, jak to říkalo číslo citované v úvodu) spolehlivější. Velká otázka ale je, jak se bude poruchovost SSD vyvíjet dál. Statistika Backblaze totiž končí zrovna tam, kde se koleno u HDD ohlo nahoru. Za H1 2021 (ještě ne celý rok) je u SSD vidět určité zhoršení, které ale možná nemusí být signifikantní a mohlo by jít jak o statistickou chybu, tak o začátek trendu zhoršující se poruchovosti. Zda křivka bude kopírovat opravdu výrazně se zhoršující vyhlídky HDD, ukáže až příští rok až dva.
Ponaučení: SSD není záruka ničeho, důležitá data vždy zálohujte
Co si z toho vzít teď? Osobně bych asi byl mírným optimistou a nepředpokládal, že se se stářím bude poruchovost SSD zhoršovat přesně tak zle, jako je to u té modré křivky HDD. Pořád je pravda, že SSD díky absenci mechanických částí přece jen jsou na určité věci méně choulostivé a i když je zde ona hrozba omezené životnosti zápisu, riziko všech možných modů selhání je u těchto úložišť celkově asi opravdu nižší. Je jen asi dát pozor na to, že v SSD je mnohem větší množství výrobců, včetně hodně pofidérních značek z Číny, zatímco jen tři výrobci HDD mají asi všichni relativně vyšší standardy kvality. Tato prakticky „no name“ SSD mohou být tak nekvalitně navržená a zpracovaná (jak co do firmwaru, tak hardwaru), že mohou mít extrémně zhoršenou poruchovost nebo zkrácenou životnost.
Ale zatím jednoduše nevíme jistě, jaká reálná poruchovost starých SSD vyjde. Je docela možné, že místo té 6× lepší spolehlivosti SSD vyjde už jenom třeba trojnásobná, nebo dokonce jenom dvojnásobně lepší spolehlivost. Ovšem třeba pořád okořeněná tím, že když už SSD odejde, tak to většinou bude odchod způsobem „cihla“ se stoprocentní ztrátou dat, zatímco u HDD je poměrně časté, že HDD vyhodíte, když se množí vadné sektory nebo máte varovný SMART status, ale máte pořád čas si data zachránit.
Závěr je takový, že byste neměli přeceňovat spolehlivost SSD. Nečekejte, že tato úložiště nemohou ze dne na den přestat fungovat. I s těmito disky tedy dbejte na to, abyste měli data vždy bezpečně zálohovaná. Vše, co je důležité a nesmíte nebo nechcete o to přijít, tedy musíte mít nějak uložené nezávisle (nastudujte si zásady zálohování a pamatujte, že třeba „bezpečné“ pole RAID 1 může selháním hardwaru nebo softwaru být zničeno celé naráz, takže data nacházející se na něm nejsou náhrada zálohy).
Je jasné, že když máte dat hodně, nemusí být ekonomicky snadné mít od všeho někde druhou kopii. I pokud u některých věcí budete ochotni (nebo nuceni) akceptovat riziko, vždy byste si ale měli ujasnit okruh opravdu důležitých a případně citově cenných dat a tuto část si nějakým způsobem zálohovat. (Tímto vám přejeme, ať se vám selhání disků vyhýbají a nemusíte ztrátu dat řešit.)
Zažili jste selhání SSD nebo HDD? Co je častější?
Zdroj: Backblaze