IT a paměť lidstva, aneb o budoucnosti archivace v digitální době

25. 9. 2012

Sdílet

 Autor: Redakce

Lidstvo dnes produkuje neuvěřitelné množství dat a informací, ale formáty se mění, disky se nezálohují, a tak podobně. Co s tím? A jsme dnes v lepší, nebo horší situaci než třeba před 50 lety? A jak by na to mělo reagovat archivnictví?

Text, který se chystáte číst, vznikl téměř před rokem jako školní esej pro předmět Analýza trhu IS/ICT, který na Vysoké škole ekonomické přednáší novinář, spisovatel a komentátor Petr Koubský. Je tedy napsán v poněkud jiném stylu, než na jaký jste na našich magazínech zvyklí, a také se věnuje trochu jiným oblastem, než jste zvyklí. Právě kvůli tomu jsem ji zprvu nepovažoval za zajímavou pro publikaci zde, ohlas na novinku o holografickém sklíčku jakožto archivním médiu mě však přesvědčil, že by vás téma archivace dat mohla zajímat.

Téma (které je zároveň anotací práce) navrhl čtenář blogu pana Koubského vystupující pod přezdívkou Pardubitz, tolik tedy „due credit“. Doufám, že se vám esej bude líbit a přeji příjemné čtení.

Archivace dat v podnicích

S rostoucím rozšířením informačních systémů v podnicích mnoho dokumentů vzniká v elektronické podobě. V České republice je v platnosti několik zákonů, které ukládají podniku archivovat vybrané dokumenty a stanovují skartační lhůtu (tedy dobu, za kterou může být dokument skartován). Jmenovitě jsou to zákony 563/1991 Sb. o účetnictví, 582/1991 Sb. o organizaci a provádění sociálního zabezpečení, 235/2004 Sb. o dani z přidané hodnoty a 499/2004 Sb. o archivnictví a spisové službě.

Skartační lhůta účetních dokladů (faktury, účetní uzávěrky, daňové doklady) bývá zpravidla pět nebo deset let. Mzdové listy a účetní záznamy o údajích potřebných pro účely důchodového pojištění se však povinně archivují 30 let a některé dokumenty má podnik povinnost archivovat trvale. To se týká například zakládacích nebo koncesních listin, notářských zápisů z jednání statutárních orgánů, výročních zpráv, ale i výrobního programu, propagačních materiálů nebo kolektivních smluv. Tyto dlouhodobé archiválie lze ale svěřit státnímu oblastnímu archivu, takže podnikatel se o jejich archivaci sám starat nemusí (Bohutínská, 2008).

Zákon o účetnictví rozlišuje mezi dokumentem v listinné (papír), technické (elektronické uložení) a smíšené podobě (papír se strojově čitelnými údaji) (Lukášová, 2009). V anketě serveru Podnikatel.cz 72 % čtenářů sdělilo, že archivují dokumenty pouze v listinné podobě, 21 % už částečně přešlo na archivaci elektronických dokumentů a 6 % odbouralo papír zcela. Čísla to nejsou závratně vysoká, nicméně trend je zřetelný: archivace v elektronické podobě bude pozvolna nabývat na významu.

Papír v nelibosti

Proč se vlastně přechází k elektronické podobě dokumentů? Složky a šanony plné papírových dokumentů jsou jednak rozměrné a obtížně přestěhovatelné, jednak jsou náchylné na zničení požárem či vlhkostí. Tisk dokumentů, které v podniku už často vznikají elektronicky, také není řešení zcela levné ani ekologické. Se zmíněnou rozměrností souvisí i složitější orientace ve větších archivech (lapidárně řečeno, papír je nám k ničemu, když ho nejsme schopni v archivu najít).

Papír má ale i jednu velkou výhodu: uchovávaný v běžných pokojových podmínkách vydrží desítky let, jak jsem se přesvědčil z rodných listů a školních vysvědčení mých prarodičů. Problém v čitelnosti takto starých listin nepředstavuje ani tak zažloutlost papíru, jako spíše ozdobná kurzíva, kterou se v dobách jejich vzniku dobách psalo.

Hollywoodské dilema

Nástrahy archivace dat v elektronické podobě v plné síle okusila hollywoodská filmová studia, když snímky začaly ve větší míře používat digitální postprodukci, případně být rovnou natáčeny digitální kamerou. Studie Academy of Motion Picture Arts and Sciences zjistila, že zatímco uložit „master kopii“ filmu v klasické podobě do opuštěného solného dolu stojí ročně 1059 dolarů, uchovávat digitální master stojí 12 514 dolarů (Cieply, 2007).

Archivace dalšího souvisejícího materiálu (fotografie z natáčení, záběry „ze zákulisí“) vyjde u klasického filmu na $486 ročně, u digitálního filmu je to přes 200 000 dolarů. Částka je tak vysoká proto, že i mimo natáčení se digitální kamera nechává běžet pro případ, že by mezi stěhováním kulis a rozpravami herců s režisérem zachytila něco zajímavého, jinými slovy později zpeněžitelného formou „DVD extras“.

V současné době se problém řeší tak, že snímky se po digitální postprodukci převedou na klasický film a v této analogové podobě se uloží. Je to kompromis mezi kvalitou obrazu, která touto konverzí něco málo utrpí, a životností takto uloženého filmu, která může činit klidně sto let. Je to ale pravděpodobně jen dočasné řešení. Stejně jako jsou analogové kamery vytlačovány digitálními, i v kinech se už dnes málokdy setkáte s klasickým promítacím strojem. A jak se bude snižovat objem výroby klasického filmu, poroste jeho cena.

Tento černý scénář pravděpodobně papíru nehrozí, ani navzdory rostoucí oblibě digitalizace ledasčeho, od podnikových dokumentů počínaje, elektronickými knihami konče. Tak jako tak je ale Pandořina skříňka jménem digitální archivace otevřena a je to problém, který na uspokojivé řešení zatím čeká.

Srovnání záznamových technologií a médií

Chceme-li archivovat data po dlouhou dobu, bude nás z hlediska technologie uložení pravděpodobně zajímat:

  • Kapacita a fyzické rozměry média, od toho se odvíjí nároky na potřebný prostor archivu, a tudíž náklady.
  • Doba, po kterou budou běžně dostupná zařízení pro čtení média, za jak dlouho tedy bude nutné migrovat na jinou technologii uložení.
  • Doba, po jakou je médium schopno data uchovat, za jak dlouho tedy bude nutné data překopírovat na nové médium.
  • Cena médií a čtecích a záznamových zařízení dané technologie.

Předposlední zmíněné kritérium je (možná překvapivě?) vcelku nedůležité. Veškerá digitální média je totiž nutné v pravidelných intervalech kontrolovat a podle potřeby nahrazovat novými. Žádné digitální médium, které má lidstvo nyní k dispozici, není „file and forget“ (archivovat a zapomenout).

Abych ale nekřivdil, ani analogový kinofilm nevydrží věčně. Přesvědčilo se o tom studio Universal Pictures, když se v roce 1991 rozhodlo zúročit své archivní bohatství a znovu vypustit do kin velkofilm Spartacus z roku 1960 (Bernstein, 1991). Originální záznam na barevném filmu podlehl zubu času do takové míry, že z něj nebylo možné zachránit vůbec nic. Snímek mohl být zrestaurován díky tomu, že to filmaři v době vzniku snímku tušili a restaurátoři tak měli k dispozicii i kopie jednotlivých barevných kanálů na trvanlivějším černobílém materiálu. Konec dobrý, všechno dobré – data přežila a technika pro jejich čtení stále existovala (a existuje i dnes). Digitální technologie jsou na tom ale přece jenom o něco hůř.

Konzumní optická média

Kompaktní disky (CD) existují už něco málo přes 30 let, přesto ale nad využitím CD, DVD a Blu-ray disků pro dlouhodobou archivaci stále visí otazníky. Technologie výroby médií se totiž během let vyvíjela (a stále se vyvíjí) a co platilo pro média zakoupená na přelomu 80. a 90. let, nemusí platit pro média zakoupená dnes.

(X-Lab, 200?) hovoří o výsledcích testů akcelerovaného stárnutí, které prováděly National Institute for Standards and Technology a Library of Congress přibližně v roce 2006. Z testů (které ovšem nemusí být zcela průkazné) vyplynulo, že „prakticky všechna“ testovaná média CD-R by měla udržet data alespoň 15 let. Z testovaných DVD-R, které mají vyšší hustotu zápisu, by ale stejnou dobu přežila jen necelá polovina. Předběžné výsledky podobných testů médií Blu-ray (Fontaine, 2009) napovídají, že jejich výdrž bude pravděpodobně ještě horší.

Za problém použití optických médií pro archivaci lze považovat také to, že by do několika desítek let mohla téměř zcela vymizet zařízení pro jejich čtení. Jako nosiče hudby, filmů a software jsou optická média nahrazována digitálními distribučními kanály a přestože dnes je prakticky každé PC vybavené optickou mechanikou, za dvacet let to může být podobný artefakt, jako nyní mechanika na 3,5" diskety.

Tato obava je ale spíše bezpředmětná. Média bude vždy po několika letech nutné zkontrolovat (kontrolují se počty chyb při čtení, ačkoliv odrazivá vrstva může zkorodovat nebo s disk může rozlepit bez předchozího varování a takový test to nezachytí), což nelze provést automaticky a při té příležitosti lze data rovnou přepsat na nové nosiče, jejichž vyšší kapacita ušetří místo a u nichž můžeme předpokládat běžnou dostupnost čtecích a zápisových zařízení po dalších minimálně 5–10 let.

Výhodou optických médií je každopádně relativně nízká cena, velká rozšířenost technologie a skutečnost, že jednou zapsaná data nemohou být změněna.

Pevné disky s magnetickými plotnami

Minimálně před záplavami v Thajsku, které nedlouho před vznikem tohoto textu způsobily rozsáhlé poškození výrobních kapacit a v důsledku několikanásobné zvýšení cen, měly pevné disky s rotujícími magnetickými plotnami bezkonkurenčně nejnižší cenu za gigabajt. Oproti jiným médiím jsou také disky relativně ke kapacitě fyzicky nejmenší. Ačkoliv jim jako žádné elektronice nesvědčí vlhkost, změny teplot a přímý sluneční svit, samotné médium (tedy plotna) je proti externím vlivům včetně nečistot a oxidace dobře chráněno.

Pevný disk vyrobený v první polovině 90. let, využívá-li rozhraní ATA a je-li stále funkční, lze stále připojit k dnešnímu počítači. Což je sice úctyhodné, ale vzhledem k tomu, že kapacity od té doby narostly přibližně tisíckrát, archivovat starý pevný disk je holý nesmysl.

Za Achillovu patu pevných disků je obecně považován motorek. Lépe řečeno skutečnost, že disk je konstruován pro každodenní provoz a nikoliv archivaci. Proto je nutné disk čas od času zapnout, aby se motorek nezasekl. „Čas od času“ by mělo být alespoň jednou za rok.

Magnetická páska

O spolehlivosti pásky jako archivačního média bohužel není snadné udělat si objektivní obrázek, neboť různé zdroje problémy zveličují nebo naopak bagatelizují podle toho, který výrobce pásek nebo konkurenční technologie si daný report objednal. Logicky ale pásce hrozí oxidace a měla by se občas převinout, aby se neslepila k sobě. Pásky se ve velké míře používají pro zálohování na dobu řádově měsíců, pro dlouhodobou archivaci ale vhodné nejsou, ostatně například HP u nich ani neudává archivní životnost.

Magneto-optická a speciální optická média

Magneto-optická média stále nabízí několik firem jako jednu z variant pro dlouhodobou archivaci; HP udává životnost 100 let, konkurenční MaxOptix 50. Vývoj se ale zastavil někdy kolem roku 2000 a dodnes jsou největší dostupná média ta s kapacitou 9,1 GB. Jejich nástupcem je formát UDO (Ultra-Density Optical), který ke čtení a zápisu používá modrý laser, podobně jako Blu-ray nebo HD DVD, jako médium pro zálohování a archivaci se ale UDO začalo rozšiřovat několik let před nimi (Bartoň, 2004). Navzdory tomu nabízí vyšší kapacity, v první generaci 30 GB, nyní i 60. Výrobci udávají archivní životnost „přes 50 let“.

Vyšší pořizovací náklady oproti konzumním technologiím by se měly vrátit na méně nákladné údržbě (tedy nižší potřebné frekvenci kontrol). Pro vyšší spolehlivost lze data archivovat i redundantně, není-li omezujícím faktorem fyzický prostor. Pokud má podnik nosiče MO s daty z roku 2000, v roce 2015 je může zkopírovat na disky UDO a vyhodit je až v roce 2030, při příležitosti migrace z UDO na další nový formát.

Jak zachovat nejen data, ale i jejich význam

(Lorie, 2000) argumentuje, že je irelevantní zabývat se tím, které médium vydrží n let, neboť pokud chceme data archivovat na dobu n+1 let, beztak se migraci nevyhneme. A ostatně díky pokračující inovaci v hustotě zápisu nemá příliš smysl trvat na tom, aby médium vydrželo 100 let.

Za podstatný problém považuje autor trvanlivost souborových formátů. Dokážeme s jistotou říci, že v roce 2100 budeme schopni korektně zobrazit dokument uložený ve formátu .doc z Microsoft Office 2000? Obrázek ve formátu PNG? Technický výkres v proprietárním formátu, který není kompatibilní ani se všemi verzemi příslušného software? Raymond Lorie nevěří, že je možné standardizovat souborový formát, který bude relevantní i za sto let. A tak se nevyhneme tomu, abychom kromě dat ukládali i metadata a možná i celý program, který s daty pracuje. A co když je cílem zachovat pro příští generace právě chování programu, nebo rovnou operačního systému?

Lorie v kostce vysvětluje řešení navržené v (Rothenberg, 1995). Podle Jeffa Rothenberga by se měly v zapouzdřeném objektu uchovávat následující údaje:

  1. Popis abecedy, ve které je uložen text
  2. Z větší části textový popis metadat, tedy sémantiky, podle jaké jsou data uložena
  3. Samotná data jako bit stream
  4. Program, také jako bit stream, který byl používán k ukládání dat a manipulaci s nimi, včetně operačního systému a dalších komponent, které jsou nutné k jeho běhu.
  5. Podrobná specifikace architektury počítače, na kterém běží software popsané v odrážce D. Alternativně rovnou specifikace emulátoru této architektury, který bude muset být v budoucnu naprogramován.

Považuje však za nesmysl, aby se společně s daty archivoval i program a operační systém, pokud chceme uložit pouze data a nikoliv chování onoho programu. Je zde však i další problém. Uvažme případ, že bychom chtěli uchovat obrázek ve formátu JPEG do doby, kdy tento formát bude dávno zapomenut a nepodporován. Uložíme-li s obrázkem zobrazovací program, obrázek si sice za 100 let prohlédneme, ale nepřevedeme ho do žádného aktuálního formátu – neznáme totiž specifikaci formátu JPEG.

Základem řešení, které Lorie navrhuje, je UVC: univerzální virtuální počítač. „UVC je počítač ve své funkcionalitě; je virtuální, protože nikdy nebude muset být fyzicky sestrojen; je univerzální, protože jeho definice je tak obecná, že vydrží navždy.“

Namísto programu, který nyní používáme k práci s daty, by se archivoval program napsaný v příkazech pro UVC, který by data dokázal pouze „poskytovat ve srozumitelném formátu“. V okamžiku, kdy by bylo potřeba data přečíst, by stačilo napsat pouze UVC interpreter (nepřesně, ale srozumitelněji řečeno „emulátor UVC“) pro existující počítače té doby. Ten by stačilo napsat pouze jednou pro všechny programy napsané pro rozhraní UVC.

Východiska pro archivnictví

…v podnicích

Jak bylo řečeno v první kapitole, většina dokumentů, které zákon ukládá archivovat podnikům, je nutné uchovávat maximálně po dobu deseti let. To navzdory tempu vývoje informačních technologií není zas tak dlouhá doba: přežijí ji bez úhony mnohdy i konzumní optická média (byť pro archivaci podnikových dat bych doporučil raději specializovaná média jako MO či UDO) a zpravidla nám nedělá problémy přečíst dokument uložený před 15 i více lety.

Pro zbytek archiválií, které je nutné uchovávat třicet nebo i více let, bych nezatracoval ani způsob uložení v listinné podobě. Je sice nepravděpodobné, že bychom za třicet až čtyřicet let nedokázali přečíst dokumenty uložené aplikací Microsoft Word, které staví na XML a používají kódování Unicode, nikdo to ale nedokáže říct s jistotou. Papír, pokud nepřijde k fyzické úhoně, přečteme i po mnoha letech.

Pro velké podniky s tisíci zaměstnanců, o kterých by se musely archivovat mzdové listy, už ale papír není příliš praktickou volbou. Těmto organizacím se vyplatí archivovat elektronicky, i navzdory tomu, že je data potřeba periodicky „přelévat“ na nová média a hlídat, aby jejich souborové formáty byly stále čitelné.

…pro zachování kulturního dědictví lidstva

Všechny ty složitosti s univerzálním virtuálním počítačem a archivováním metadat a čtecího programu, které jsem v předchozí pasáži ani nezmínil, přesto nejsou zbytečné. Stejně jako je pro podniky nepraktické a drahé ukládat všechny archiválie v papírové podobě, je pro knihovny drahé uchovávat fyzické svazky. Knihy se tak už v minulosti převáděly do mikrofiše a fyzicky likvidovaly, později mikrofiš nahradila elektronická podoba. Poté je zde již zmíněný problém uchovávání digitálních filmů. A co kdybychom chtěli pro další generace zachovat například počítačové hry ze „zlatého věku“ kolem přelomu tisíciletí?

Zde už by mohlo dávat smysl archivovat tak, jak doporučují pánové Lorie a Rothenberg. Na druhou stranu, cynicky lze říci, že vše, co kdy bylo napsáno, nahráno a nazpíváno či natočeno, existuje to v elektronické podobě a má smysl to archivovat, je zpravidla redundantně uloženo na počítačích mnoha uživatelů internetu a je každému na dosah skrze výměnné peer-to-peer sítě. Dokážu si ale představit, že filmovým a nahrávacím studiím (obecně držitelům copyrightu) tato forma crowdsourcingu není tak docela po chuti.

Literatura

(Bohutínská, 2008) BOHUTÍNSKÁ, Jana. Než skartujete fakturu, raději měřte dvakrát. Podnikatel.cz [online]. 30. ledna 2008, [cit. 2011-11-11]. Dostupný z WWW: http://www.podnikatel.cz/clanky/nez-skartujete-fakturu-radeji-merte-dvakrat/

(Lukášová, 2009) LUKÁŠOVÁ, Jitka. Jak ve firmě archivovat doklady? I po letech musí být čitelné. Podnikatel.cz [online]. 15. října 2008, 666, [cit. 2011-11-11]. Dostupný z WWW: http://www.podnikatel.cz/clanky/jak-ve-firme-archivovat-doklady/

(Cieply, 2007) CIEPLY, Michael. The Afterlife Is Expensive for Digital Movies. New York Times [online]. 23. prosince 2007, [cit. 2011-11-14]. Dostupný z WWW: http://www.nytimes.com/2007/12/23/business/media/23steal.html?pagewanted=all

(Bernstein, 1991) BERNSTEIN, Richard. 'Spartacus': A Classic Restored. New York Times [online]. 18. dubna 1991, [cit. 2011-11-19]. Dostupný z WWW: http://www.nytimes.com/1991/04/18/movies/spartacus-a-classic-restored.html?pagewanted=all&src=pm

 (X-Lab, 200?) The X-Lab [online]. 200? [cit. 2011-11-19]. Optical media longevity. Dostupné z WWW: http://www.thexlab.com/faqs/opticalmedialongevity.html

(Fontaine, 2009) FONTAINE, Jean-Marc. Dégradations des disques optiques : Réponses pouvant être apportées. Journée GIS-DON [online]. 17. listopadu 2009, [cit. 2011-11-19]. Dostupný z WWW: http://www.lne.fr/fr/r_et_d/gis-don/journee-information/presentations/4-GIS-DON-degradations-disques-optiques.pdf

(Bartoň, 2004) BARTOŇ, Martin. UDO nahrazuje MO rychleji než Plasmon čekal. Deep in IT [online]. 14. října 2004, [cit. 2011-11-25]. Dostupný z WWW: http://www.diit.cz/clanek/udo-nahrazuje-mo-rychleji-nez-plasmon-cekal/12097/

(Lorie, 2000) LORIE, Raymond A. IBM Research Report : Long-Term Archiving of Digital Information [online]. 18. května 2000, [cit. 2011-11-19]. Dostupný z WWW: http://domino.watson.ibm.com/library/CyberDig.nsf/papers/BE2A2B188544DF2C8525690D00517082/$File/RJ10185.pdf, RJ 10185 (95059).

bitcoin_skoleni

(Rothenberg, 1995) ROTHENBERG, Jeff. Ensuring the Longevity of Digital Documents. Scientific American, 272(1),  January 1995. Dostupný z WWW: http://www.clir.org/pubs/archives/ensuring.pdf

Obrázky byly převzaty z článku Historie datových úložišť: od děrných štítků po SSD a z fotobanky Stock.xchng.