Google: Na světě je přesně 129 864 880 knih

11. 8. 2010

Knihy v řeči jedniček a nul

Možná už vás také napadlo, kolik knih bylo v moderní historii napsáno. Dosud ale nevíme o žádném jiném odhadu, kolik by to mohlo být. Jak všechny knihy spočítat? Co ještě můžeme považovat za knihu? Google má jasno, je jich přesně 129 864 880. Alespoň tedy do minulého čtvrtku, kdy na svém blogu vydali oficiální zprávu.

Možná víte, že se projekt Google Books (dříve Books Search nebo Print) snaží digitalizovat veškeré tištěné dědictví ze světových knihoven. Ambiciózní plán odstartoval na sklonku roku 2004 a v průběhu času měl řadu konkurentů. Snažil se i Microsoft, ale svůj Live Search Books provozoval jen mezi roky 2006 a 2008. Ale existují ještě další rozsáhlé projekty:

Europeana (6 milionů objektů)
Hathi Trust (6,5 milionu objektů, z toho 3,8 milionu knih, mají dohodu s Googlem)
Gallica (800 000 knih, časopisů a dalších tiskovin, spravuje Francouzská národní knihovna, proto většina obsahu ve francouzštině)

Google však míří trochu výš.

Škrtáme a vylučujeme

Jak byste při psaní postupovali vy? Velké množství záznamů se nasbírá díky unikátním kódům ISBN (International Standard Book Numbers). Jenže ty se používají někdy od 60. let minulého století (to ještě jako SBN) a to hlavně v západním světě. Více se toto značení rozšířilo až v polovině 70. let. Takže ISBN musíme brát jako jeden ze zdrojů, protože starší výtisky, které se nedočkaly nových edicí žádné, ISBN kód nemají. Navíc je v kódech chaos a bylo zjištěno, že některý kód odpovídá dvěma (ale i patnácti stům) titulům. Dalším problémem je, že ISBN se nevztahuje pouze na knihy, ale i věci knihám podobným. Třeba CD nebo i trička :-).

Ve světě se používají i další značení, třeba OCLC (Online Computer Library Center) nebo LCCN (Library of Congres Control Number). Jenže ty mají také své mouchy. Například počítají svazek knih pouze jako jeden titul, ale také některé knihy mají označení více. Jako příklad Google udává například italskou verzi Andělů a démonů od Dana Browna, která má minimálně pět různých čísel OCLC.

Zmatek panuje i v knihovnách, které tituly označují rozdílnými metadaty.

Vyhledávejte v 12 milionech knihách Google Books.

Google přesto všechny tyto tituly započítal (a přidal ještě dalších 150 různých zdrojů) a vlastním algoritmem pak zpracoval. Během šesti let stačil nashromáždit asi miliardu záznamů o knihách. Když se odstraní duplicity, dělá to asi 600 milionů. To ale neznamená, že na světě existuje 600 milionů unikátních knih (myslíme titulů, ne knih celkem).

Odstranil ještě další „podezřelé“ tituly, např. ty s neexistujícím vydavatelstvím, ty se stejným obsahem ale jiným názvem. Tím se vyškrtla třetina obsahu a jsme na 210 milionech.

Ještě je třeba vyloučit mikroformáty (mikrofilm apod., 8 milionů), zvukové záznamy (4,5 milionu), videa (2 miliony), mapy (2 miliony), trička (asi tisíc) a dalších neknižních objektů. Dostáváme se na zhruba 146 milionů knih. Posledních 16 milionů bylo odečteno kvůli různým sériím a svazkům, které na sebe navazují, ale jsou rozděleny v několika knihách. Spadají sem mj. i vládní dokumenty v amerických knihovnách.

Pokud budeme Googlu věřit, minulý týden bylo knih přesně 129 864 880, ale každý den se toto číslo zvyšuje.

V očích kritiků se Google Books už několikrát, upozornil na to třeba magazín Ars Technica. Už před rokem se do Google opřel Geoff Nunberg, který zjistil, že nepořádek v metadatech má i Google. Ale nelze v tuto chvíli říct, jestli jsou tyto výtky platné i dnes.

Shakespeare v klingonštině

Konečné číslo s přesností na jednotky ale není vůbec podstatné. Pokud by měl výsledek odchylku klidně 10 %, stále je to pro Google důležitý údaj. Firma dělala výzkum hlavně kvůli zjištění „kolik jim ještě chybí“. V červnu totiž po naskenování 400 000 knih z rakouské knihovny oznámila celkový počet převedených knih – je jich už 12 milionů a jsou napsány v téměř 500 jazycích (včetně Shakespearovy sbírky přeložené do klingonštiny ze Star Treku).

Nejstarší titul pochází z roku 1500 (Arithmetica – Gull Spänlin). Celkový počet naskenovaných stránek je okolo pěti miliard. A všechny pocházejí ze 40 největších knihoven světa.

Jednoduchý výpočet říká, že tak Googlu chybí ještě 118 milionů knih. Většina z nich byl nafocena 11Mpx kamerou Elphel 323, rychlostí asi 1000 stránek za hodinu. Veškerý bitmapový text je pak převáděn pomocí OCR na znaky v počítači. Pokud budeme přehánět a jedna kniha má průměrně 416 stran jako dosud (5 mld. stran s 12 mil. knihách), za hodinu stihnou s jedním skenerem asi 2,5 knihy. Pokud by skenoval opravdu jen jeden přístroj, dokončení dnešních knihoven by mu trvalo asi 5600 let :-).

Elphel 323, zdroj: Elphel

Mimochodem Amazon prodává asi 600 000 elektronických knih (plus mnoho bezplatných). Ještě mají také co dohánět.

Poznámka na závěr: Až budete příště hledat knihu, zkuste books.google.com, najdete zde i mnoho českých a slovenských titulů k plnému volnému prohlížení v plné verzi.

Zdroj: Google Books blog, Wikipedia (Google Books), Mercury News