ABBYY FineReader 9: povedené OCR

17. 9. 2008

Sdílet

 Autor: Redakce

ABBYY FineReader rozhodně není na trhu žádným nováčkem. Aktuální verze nese již číslo devět, program je na trhu řadu let. Během svého vývoje prošel změnami, které z něj dělají jeden z nejlepších OCR programů současnosti. Potřebujete-li převést papírové dokumenty do elektronické podoby, je jedním z dobrých kandidátů.

Co je to OCR?

Pokud moc často skener nepoužíváte, možná je vám pojem OCR neznámý. Tato zkratka označuje anglický termín optical character recognition, česky optické rozpoznávání znaků. Jde o proces, který se používá při převodu papírových dokumentů do elektronické podoby. Pokud oskenujete papírovou předlohu, dostanete z ní pouze soubor, který lze uložit nejčastěji v některém obrazovém formátu. Aby se choval jako skutečný elektronický dokument, ve kterém můžete označovat jednotlivé znaky, vyhledávat v něm a provádět různé úpravy v jeho obsahu, je nutné jej provést právě procesem OCR.

OCR se pokusí rozpoznat, co je na předloze napsáno a výsledek vám nabídne jako dokument pro textový procesor Word, jako PDF soubor, tabulku, atd. Záleží na programu, který pro OCR použijete. Moderní OCR programy navíc dovedou vytvořit dokument tak, že obsahuje nejenom oskenovaný text, ale i všechny obrázky. Výsledek pak vypadá stejně jako oskenovaná předloha, přitom je ale stejný, jako kdybyste jej vytvořili v počítači od začátku.

Instalace ABBYY FineReader 9.0

Instalační program FineReaderu 9 zabírá něco přes 300 MB, podobné místo pak program zabere na vašem disku po své instalaci. Ta zabere více než deset minut, nicméně kromě vypnutí programů ze sady MS Office nevyžaduje žádný zásah ze strany uživatele.

První kroky s ABBYY FineReader 9.0

Po spuštění programu vám FineReader nabídne seznam činností, se kterými vám může pomoci. Na výběr máte převod dokumentů do kancelářských programů Word a Excel, nechybí skenování do souboru PDF. Poslední dvě položky nabízejí skenování fotografie do Wordu a uložení oskenované předlohy do obrazového souboru.

Při skenování si na začátku vyberete ze seznamu zjištěných skenerů, potvrdíte a počkáte na zobrazení ovládacího okna. ABBYY FineReader nabízí vlastní, okno ovladače skeneru je v tomto případě potlačeno. Přepnutí stupňů šedé na barvu vyžaduje opětovné spuštění náhledu, jinak v něm nedojde ke změně. Všechna nastavení jsou obvyklá - velikost dokumentu, možnost ručního označení skenované oblasti, nebo zapnutí oboustranného skenování, pokud máte k dispozici automatický podavač.

Na výběr jsou tři stupně rozlišení: 200 DPI, 300 DPI a 600 DPI, ruční zadání zde nenajdete. Budete-li mít problém s kvalitou oskenovaného dokumentu, můžete si zkusit ručně upravit jas. Jaké nastavení je vhodné pro ten který typ dokumentu vám napoví tištěná brožurka dodávaná s programem. Bohužel náhled na nastavení táhla jasu nereaguje.

Při skenování jsem postrádal ukazatel průběhu. Zamrzlé okno s náhledem a popiskem „Neodpovídá" zřejmě méně zkušené uživatele příliš nepřesvědčí o tom, že neudělali žádnou chybu a musí jen vyčkat. Jakmile je skenování dokončeno a program začne reagovat, můžete skenovací dialog zavřít.

Spouštíme OCR

OCR proces je po zavření skenovacího dialogu spuštěn automaticky - tedy jen v případě, že jste vybrali činnost, při které je OCR vyžadováno, typicky například skenování do Wordu. O průběhu OCR vás program již informuje a po jeho dokončení otevře výsledný dokument v asociované aplikaci.

Výsledek skenování v barvě si prohlédněte na dalším obrázku. Jako předlohu jsem použil jednu ze stran časopisu Nejlepší PC rady a návody, která je vytištěna na recyklovaném papíře. Jak je vidět, s obyčejným textem si OCR v ABBYY FineReaderu poradí docela dobře, v tomto směru vám opravdu poslouží a pokud budete chtít skenovat klasický dokument bez nějakých grafických prvků, není co řešit.

Poněkud hůře je na tom zpracování nestandardních písem doplněných grafikou, barevným pozadím a s otočením. Úprava jasu však výrazně pomůže, doporučuji se proto na automatiku skeneru příliš nespoléhat.

Co se týče zachování rozmístění jednotlivých prvků skenovaného dokumentu, zde mě ABYY FineReader zklamal asi nejvíce. Od programu prezentujícího se jako The Intelligent OCR, jsem očekával více. Rozmístění je pouze přibližné, barvy pozadí nejsou zachovány a dokument je předloze podobný jen se zavřením obou očí.

Skenováním to však nekončí...

Každý, kdo někdy převáděl dokument z papírové do elektronické podoby, velmi dobře ví, že oskenováním papírové předlohy celý proces vlastně začíná. Kvalita programu se však projeví už přitom. Čím lépe si automatika s převodem poradí, tím méně práce bude mít uživatel. Oskenované dokumenty FineReader zobrazuje v panelu ve formě malých náhledů. Jakmile se rozhodnete pro ruční úpravy, stačí na příslušný náhled klepnout a dokument si zobrazit v režimu úprav.

Vlevo je obraz s oskenovanou předlohou, vpravo by pak měl být výsledek. Pomocí sady nástrojů v horní části nad předlohou můžete přidávat další oblasti, které chcete analyzovat (tedy převést z nich text). Kromě textu je k dispozici označování obrázků a tabulek.

Tažením za okraje automaticky vybraných oblastí textu velice rychle vyřešíte problém s tím, že FineReader zapomene na nějaká písmenka. Lepších výsledků dosáhnete s nastavením jazyka, ve kterém je vytvořen skenovaný dokument, orientace papíru a druhu tiskárny. Nastavení jazyka je možné i pro jednotlivé oblasti na stránce, což vám umožní bez problémů převádět vícejazyčné dokumenty.

Všimněte si, že vpravo FineReader zvýrazňuje texty, o kterých si myslí, že nebyly správně rozpoznány. Využívá k tomu slovník pro kontrolu pravopisu. Proto je nastavení jazyka velmi důležité.

Pokud si s dokumentem ručně pohrajete, pak vás výsledek uspokojí - ovšem jen v případě, že netrváte na divokém rozložení různých textových rámečků a jde vám opravdu pouze o text. V praxi jsem si nevšiml viditelného rozdílu mezi tím, jestli je dokument ve Wordu uložen jako Upravitelná nebo Přesná kopie. Příliš to nevylepší ani upřesňující nastavení, kde lze nastavit nejen zachování barev.

Výsledek skenované předlohy stále bude ve Wordu vypadat takto:

Tvorba PDF a srovnání s Adobe Acrobatem

Pro srovnání s Adobe Acrobatem jsem vyzkoušel tutéž stránku převést do PDF pomocí ABBYY FineReaderu a Acrobatem 8. Výsledek bez jakékoli úpravy a se zachováním výchozího nastavení po instalaci je sice nepoužitelný, ale:

Pro srovnání zde je oskenovaný dokument přímo pomocí Adobe Acrobatu 8, včetně automatického OCR a stejného nastavení (barva, 300 DPI).

Jak vidíte, výsledek odpovídá předloze, protože jde vlastně o oskenovaný obrázek, ke kterému je doplněna informace o textech. Dlužno dodat, že na tomto konkrétním dokumentu zvítězilo OCR ABBYY FineReaderu. Ve výchozím nastavení rozpoznal mnohem více textu, připočteme-li k tomu možnost dodatečných úprav, je v OCR FineReader jednoznačně lepší. Co však s tím, když budete chtít kombinaci podoby dokumentu, jakou nabízí Acrobat a kvality OCR, kterou dodá FineReader? Stačí jít do jeho nastavení a pro formát PDF zvolit režim ukládání jako PDF/A namísto výchozího nastavení „Pouze text a obrázky".

Výsledek vás pak již určitě uspokojí:

Skenování tabulky

Pro pořádek vám ještě nabízím ukázku toho, jak si FineReader 9.0 poradí s jednoduchou tabulkou s mírně rozmazaným tiskem. Použil jsem tentokrát stupně šedé. Výsledek byl perfektní, FineReader zachoval i způsob orámování buněk v tabulce. To opět dokazuje, že ABBYY FineReader je určen především pro získávání textu z dokumentů a zachování jejich přesné podoby v případě, že je použito jednoduché rozvržení.

ABBYY Screenshot Reader

Součástí instalace FineReaderu je také nástroj pro zachytávání obsahu obrazovky a aplikaci OCR na tyto screenshoty. Najdete jej v nabídce Start pod názvem ABBYY Screenshot Reader. Jde o užitečnou pomůcku, která vám na požádání zachytí část obrazovky, provede na ní OCR proces a výsledek zkopíruje buď do schránky, nebo uloží do souboru. Využití pro ni jistě brzy najdete.

ICTS24

V nabídce Start najdete i odkazy na tzv. Rychlé úlohy, které se zobrazují po spuštění hlavního okna FineReaderu nebo také po kliknutí na příslušnou nabídku v hlavním okně.

Povedená aplikace - jen ji musíte nastavit

I přes některé výhrady, které jsem uvedl výše si myslím, že ABBYY FineReader 9.0 je velmi povedený program. Jeho OCR možnosti jsou velmi dobré a ruční úpravy chyb, kterých se program dopustí, jsou otázkou několika minut. Většinou opravdu stačí nastavit jazyk a tažením myší upravit ohraničení rozpoznávané oblasti. Vřele doporučuji prostudovat příručku. Nikoli proto, že by se program složitě ovládal (to naopak), ale najdete zde tipy pro nastavení, které vám ulehčí skenování a sníží nutnost ručních úprav na minimum. Českou verzi ABBYY Finer Readeru 9.0 můžete zakoupit na www.nupseso.cz.