Hlavní navigace

PDF OCR: vytáhněte si z PDF souborů to potřebné

19. 4. 2010

Sdílet

Zdroj: Redakce

PDF OCR (Optical Character Recognition) od vývojářů PDFZilla je jednoduchý prográmek, který v relativně slušné kvalitě převádí text v PDF dokumentech do editovatelné podoby. A co je důležité – stáhnout si jej můžete zcela zdarma. Až pokud by vás free verze rozpoznávaní znaků zaujala a zajímal by vás podobný nástroj na profesionálnější úrovni, můžete si na stránkách PDFZilla zakoupit celý balík aplikací pro práci s „pédéefky“.

Verzi zdarma můžete stahovat zde.

Třikrát kliknout a dost

Když se proklikáte obvyklým instalačním formulářem, můžete PDF Rozpoznávač znaků ihned spustit. V úvodu vás přivítá „Getting Started“ okno s nápovědou, ve kterém se dočtete, že k úspěšnému převádění PDF dokumentů vám stačí pouze tři kliknutí.

A protože v jednoduchosti je síla a okna s nápovědou nikdy nelžou, budou vám tři kliknutí opravdu stačit.

Po zavření uvítacího textu před sebou vidíte dvě okna – jedno slouží pro práci s PDF dokumentem, který chcete převádět, druhé pak pro práci s textovým výstupem.

Začnete kliknutím na ikonu znázorňující složku v levém horním rohu. Tím si zvolíte soubor, jehož text budete chtít převést do editovatelné podoby. Po potvrzení volby se vám v panelu náhledu objeví první strana dokumentu a ve sloupci vlevo seznam všech stránek, mezi nimiž můžete přepínat. V tomto okamžiku plní okno funkci jednoduchého PDF prohlížeče, v němž můžete posouvat stránky a přibližovat/oddalovat dokument.

Když máte jasno, které stránky a dokumenty chcete převádět, samotný převod zahájíte kliknutím na tlačítko Start OCR. Zobrazí se vám formulář, v němž ještě zbývá nastavit několik maličkostí.

Vyberte, které stránky chcete tisknout, a zvolte jazyk. Čeština bohužel k dispozici není, je zastoupena pouze obecným heslem Other languages. Při testování na dokumentech v češtině problém s nestandardními českými znaky nenastal, rozlišovací schopnost mezi jednotlivými znaky však byla horší než např. u angličtiny.

Když kliknete na Start, nějakou dobu se budete kochat probíhajícími pracemi na status baru. Výsledný text se pak zobrazí v okně pro editaci textu. Textový editor programu PDF OCR nabízí některé základní funkce pro úpravu textu, pravděpodobně si však výsledek převodu zkopírujete do vašeho oblíbeného editoru, kde si s textem můžete dále vyhrát.

Pomůže, ale neudělá za vás všechno

A nejspíš i budete muset. Převaděč totiž není zdaleka neomylný. Závisí to samozřejmě na kvalitě předlohy, ale s velkou pravděpodobností budete ještě do výsledné podoby zasahovat.

CS24

Nejlepších výsledků dosahuje převaděč s anglickým textem. U předlohy je třeba dávat si pozor na pozadí textu (bílé je nejlepší) a použití pokud možno co nejzákladnějšího fontu. Program si neporadil zcela ideálně s textem psaným kurzívou. V některých případech dělala problémy také záměna např. písmene M za písmena I V I, písmene m za písmeno n nebo čárky v souvětí za tečku. Pokud vypozorujete často se opakující záměny, pak je vhodné použít funkci Najít a nahradit, kterou obsahuje většina základních textovým editorů (včetně editoru obsaženého přímo v PDF OCR).

Suma sumárum je PDF OCR dobrým pomocníkem a s přihlédnutím k faktu, že je zcela zdarma, jej nelze než doporučit. I když převedený text bude s velkou pravděpodobností třeba ještě doopravit, rozhodně vám použití převaděče ušetří spoustu práce.