Přehled softwaru: rozpoznávání textu OCR a jak na to

13. 2. 2011

Sdílet

 Autor: Redakce

OCR (anglicky Optical Character Recognition) je technologie umožňující převod různých druhů „statických dokumentů“ jako jsou naskenované knihy, PDF soubory nebo dokumenty vyfocené digitálním fotoaparátem do podoby umožňující úpravy textu a dalšího obsahu. Snaha vytvořit z tištěných dokumentů digitální a v počítači editovatelné texty bez nutnosti otrockého přepisování se objevila na přelomu 19. a 20. století a gradovala spolu s rozvojem elektronických počítačů. Už v červnu roku 1933 si ve Spojených státech podal Paul W. Handel z General Electric žádost o patent přístroje s názvem Statistical machine. Z dnešního pohledu primitivní, avšak převratné zařízení umělo rozeznat tištěná čísla.

Úvod, bezplatné desktopové nástroje

Po téměř sto letech vývoje tu máme OCR systémy, které dokáží digitalizovat celé fondy knihoven a softwarové aplikace, jež dokáží uspokojit digitalizační potřeby všech, od velkých korporací až po koncové uživatele. V našem stručném přehledu se zaměříme na nejznámější komerční softwarové aplikace pro Windows, představíme si několik webových služeb a nakonec si názorně ukážeme, jak na OCR zdarma a především česky.

Komerční nástroje

Nejskloňovanějším výrazem reklamních materiálů k OCR produktům bývá obvykle accuracy – přesnost. Přesnost rozpoznání znaků je nejvyšším identifikátorem kvality OCR a každý výrobce se ji snaží vylepšit co nejvíce – od zdokonalování samotného rozpoznávacího mechanismu až po zabudované slovníky, ve kterých se každé převedené slovo porovnává a zpřesňuje (někteří výrobci takovéto funkce dokonce vydávají za umělou inteligenci).

Zcela na úvod je však potřeba si přiznat jednu důležitou věc: žádný OCR software nezaručí stoprocentní přesnost a každý převedený text musí následně projít důkladnou kontrolou. Navíc nesmíte zapomenout, že čím složitější je vstupní materiál (počínaje ručně psanými poznámkami), tím méně přesný je výsledek převodu.

Další nezanedbatelnou funkcí, na kterou je vhodné se při výběru OCR nástroje zaměřit, je schopnost udržet strukturu převedeného dokumentu v co nejvěrnější podobě vůči originálu. U levnějších nástrojů se často stává, že si nejsou schopny poradit s výrazněji členitějším textem, takže na výstupu obdrží nespokojený uživatel nesrozumitelnou směs sesypaných odstavců a obrázků.

Vyzkoušet si trialverze placených OCR nástrojů už není tak jednoduché jako kdysi – jejich výrobci zareagovali na vysokou míru pirátství svého softwaru opuštěním modelu třicetidenních trialverzí a u svých produktů nabízejí, v tom lepším případě, jen videoukázky práce aplikací. Mezi takové patří dva z lídrů OCR trhu: OmniPage, dostupný za 116 € s podporou 123 jazyků, a Readiris s podporou sto dvaceti jazykových sad a cenou 129 €. Jednou z mála aplikací, kterou si v nejnovější verzi můžete vyzkoušet na vlastní kůži, je ABBYY Fine Reader. Za 139 € nabízí podporu celých 186 jazykových sad.

Testovat schopnosti známých komerčních aplikací v převodu naskenovaných tištěných dokumentů nebo dokumentů psaných na stroji by asi nemělo smysl, vyzkoušeli jsme je proto v oblasti, která nás lákala nejvíce – rozpoznávání ručně psaného textu.

Některé OCR aplikace tuto možnost nemají (ABBYY Fine Reader), jiné však nástroje k převodu ručního písma nabízejí. Závěr je jednoznačný – nefungují. Readiris (vyzkoušeli jsme verzi 11 Pro, nejnovější bohužel není dostupná jako trial) byl dokonce tak nepřesný, že tištěnou sedmičku převedl jako jedničku. Uznáváme, že vstupní tabulka, ve které každou položku psala ruka jiného člověka, byla asi příliš tvrdým oříškem, nástroj však zklamal i v převodu tištěné numerické části.

Nic to samozřejmě nemění na faktu, že se ve všech třech případech jedná o kvalitní a dostačující nástroje, u kterých je jedinou vadou na kráse snad jen příliš vysoká cena. Na trhu ale můžete narazit i na jednodušší, takzvané home verze, jejichž cena se většinou pohybuje pod hranicí tisíce českých korun. Pokud digitalizaci a převod naskenovaných dokumentů využíváte často, vyplatí se do komerčních nástrojů investovat, jestli vás ale nutnost použít OCR obvykle přepadne jen několikrát do roka, pravděpodobně sáhnete po některém z bezplatných nástrojů.

Desktopové aplikace zdarma

FreeOCR

Pokud z jakéhokoliv důvodu nechcete své dokumenty nahrávat do on-line aplikací, využijete ve Windows aplikaci FreeOCR. Nejenže přináší plnohodnotné možnosti převodu při zachování struktury textu a podporuje rozsáhlou škálu vstupních i výstupních formátů, ale především disponuje podporou jednoduše doinstalovatelných jazykových sad.

Pro instalaci té české si stáhněte příslušný archiv ze seznamu podporovaných jazyků, v programu zvolte Settings | Open Language Folder a do otevřené složky jazykovou sadu jednoduše rozbalte. Po restartu aplikace pak vyberete v pravé části horního panelu češtinu.

Zdarma dostupná online řešení

Bezplatné webové OCR služby

OnlineOCR

První on-line služba v tomto stručném přehledu je zároveň ta nejlepší – ačkoli se na ní pro širší možnosti budete muset zdarma zaregistrovat. Jako neregistrovaného uživatele vás totiž bude svazovat maximální limit patnácti převedených dokumentů za hodinu, omezení velikosti obrázků a možnost převádět pouze jednostránkové PDF soubory.

OnlineOCR podporuje 32 jazyků včetně češtiny - vyzkoušeli jsme ho s mírně strukturovaným tištěným českým textem a byli jsme překvapeni výbornou přesností, rychlostí i schopností udržet strukturu dokumentu. Na obrázku je převedený soubor zobrazen v obyčejném textu, struktura se projeví až ve staženém souboru aplikace Word.

NewOCR

NewOCR podporuje 29 jazyků a analýzu struktury textu (což zjednodušeně znamená, že pochopí případné členění textu do sloupců a převedené odstavce seřadí správně za sebe. Opravdové zachování struktury však nečekejte, jediným výsledkem převodu je čistý text přímo v aplikaci, možnost exportu do DOC nebo RTF chybí.

Na rozdíl od OnlineOCR se však není potřeba registrovat, limit velikosti obrázků je nastaven až na 5 MB a poradí si i s vícestránkovými PDF do 20 MB. Zásadní problém ovšem nastává při vyhodnocování přesnosti přepisu. V něm totiž NewOCR, jak sami vidíte na obrázku níže, trochu kulhá.

Free OCR

bitcoin_skoleni

Poslední on-line OCR službou, kterou si dnes představíme, je Free OCR. Umožňuje převádět obrázky do velikosti 2 MB a jednostránková PDF, maximálně však 10 za hodinu. Podporuje 29 jazykových sad, je bez registrace a přináší nesrovnatelně vyšší přesnost než předchozí služba NewOCR. Strukturu textu však také nezachovává a umožňuje export pouze do čistého textu.

Ačkoli byl náš vhled do problematiky OCR stručný a pouze okrajový, doufám, že si z představených nástrojů každý vybere tu správnou OCR aplikaci, která naplní jeho očekávání a především ušetří dlouhé hodiny práce nad klávesnicí. Nezapomínejte však, že každý převedený text musí být pečlivě překontrolován a že ani jeden z dostupných OCR nástrojů vám nemůže zaručit stoprocentní přesnost textu vůči originálu.