PDF OCR: vytáhněte si z PDF souborů to potřebné

19. 4. 2010

PDF OCR (Optical Character Recognition) od vývojářů PDFZilla je jednoduchý prográmek, který v relativně slušné kvalitě převádí text v PDF dokumentech do editovatelné podoby. A co je důležité – stáhnout si jej můžete zcela zdarma. Až pokud by vás free verze rozpoznávaní znaků zaujala a zajímal by vás podobný nástroj na profesionálnější úrovni, můžete si na stránkách PDFZilla zakoupit celý balík aplikací pro práci s „pédéefky“.

Verzi zdarma můžete stahovat zde.

Třikrát kliknout a dost

Když se proklikáte obvyklým instalačním formulářem, můžete PDF Rozpoznávač znaků ihned spustit. V úvodu vás přivítá „Getting Started“ okno s nápovědou, ve kterém se dočtete, že k úspěšnému převádění PDF dokumentů vám stačí pouze tři kliknutí.

A protože v jednoduchosti je síla a okna s nápovědou nikdy nelžou, budou vám tři kliknutí opravdu stačit.

Po zavření uvítacího textu před sebou vidíte dvě okna – jedno slouží pro práci s PDF dokumentem, který chcete převádět, druhé pak pro práci s textovým výstupem.

Začnete kliknutím na ikonu znázorňující složku v levém horním rohu. Tím si zvolíte soubor, jehož text budete chtít převést do editovatelné podoby. Po potvrzení volby se vám v panelu náhledu objeví první strana dokumentu a ve sloupci vlevo seznam všech stránek, mezi nimiž můžete přepínat. V tomto okamžiku plní okno funkci jednoduchého PDF prohlížeče, v němž můžete posouvat stránky a přibližovat/oddalovat dokument.

Když máte jasno, které stránky a dokumenty chcete převádět, samotný převod zahájíte kliknutím na tlačítko Start OCR. Zobrazí se vám formulář, v němž ještě zbývá nastavit několik maličkostí.

Vyberte, které stránky chcete tisknout, a zvolte jazyk. Čeština bohužel k dispozici není, je zastoupena pouze obecným heslem Other languages. Při testování na dokumentech v češtině problém s nestandardními českými znaky nenastal, rozlišovací schopnost mezi jednotlivými znaky však byla horší než např. u angličtiny.

Když kliknete na Start, nějakou dobu se budete kochat probíhajícími pracemi na status baru. Výsledný text se pak zobrazí v okně pro editaci textu. Textový editor programu PDF OCR nabízí některé základní funkce pro úpravu textu, pravděpodobně si však výsledek převodu zkopírujete do vašeho oblíbeného editoru, kde si s textem můžete dále vyhrát.

Pomůže, ale neudělá za vás všechno

A nejspíš i budete muset. Převaděč totiž není zdaleka neomylný. Závisí to samozřejmě na kvalitě předlohy, ale s velkou pravděpodobností budete ještě do výsledné podoby zasahovat.

Nejlepších výsledků dosahuje převaděč s anglickým textem. U předlohy je třeba dávat si pozor na pozadí textu (bílé je nejlepší) a použití pokud možno co nejzákladnějšího fontu. Program si neporadil zcela ideálně s textem psaným kurzívou. V některých případech dělala problémy také záměna např. písmene M za písmena I V I, písmene m za písmeno n nebo čárky v souvětí za tečku. Pokud vypozorujete často se opakující záměny, pak je vhodné použít funkci Najít a nahradit, kterou obsahuje většina základních textovým editorů (včetně editoru obsaženého přímo v PDF OCR).

Suma sumárum je PDF OCR dobrým pomocníkem a s přihlédnutím k faktu, že je zcela zdarma, jej nelze než doporučit. I když převedený text bude s velkou pravděpodobností třeba ještě doopravit, rozhodně vám použití převaděče ušetří spoustu práce.

Vstoupit do diskuse

Sdílet

Třikrát kliknout a dost

Pomůže, ale neudělá za vás všechno

Autor článku

Jan Váňa

Témata:

Nejnovější

Anketa

Nakupujete u čínských prodejců?

Témata

Návody a tipy

Jak na Netflixu najít perfektní film během pár sekund? Tajnou zkratkou jsou skryté kódy ve vyhledávání

Usínáte pravidelně u YouTube? Nová funkce vám ušetří peníze za elektřinu

Jak vložit elektronický podpis do PDF dokumentu? Jde to snadno a zdarma

Jak zjistit heslo Wi-Fi sítě, ke které jste připojeni? Na počítači s Windows nebo na smartphonu snadno

Šest nejlepších vychytávek od Mapy.cz. Znáte je všechny?

Intel končí s plány na x86S, navrací se ke standardní x86, Qualcomm vyhrál dílčí bitvu o ARM

Evropský Starlink se rozjíždí, Rusko zase testovalo odpojení od internetu, ruské zneužití softwaru…

Reklama přímo v systému televize? Kdyby nešla vypnout, koleduje si Philips o problém

OSA chce 90 Kč z každého chytrého telefonu, Nejvyšší soud souhlasí

Češi vyslali svařovacího robota do vesmíru a brzy to zkusí znovu. Připravují se však na víc

Tuzemské cestovní náhrady v roce 2025

Zálohování s Baculou: otevřený systém pro komplexní scénáře

Krátké vlny: Priority polského předsednictví a útoky na cloudovou infrastrukturu

Přinášíme souhrn příběhů podnikatelů roku 2024. Inspirujte se jejich nadšením

PDF OCR: vytáhněte si z PDF souborů to potřebné

Sdílet

Třikrát kliknout a dost

Pomůže, ale neudělá za vás všechno

Autor článku

Anketa

Nakupujete u čínských prodejců?

Kvíz týdne

Návody a tipy

Z našich webů

Intel končí s plány na x86S, navrací se ke standardní x86, Qualcomm vyhrál dílčí bitvu o ARM

Evropský Starlink se rozjíždí, Rusko zase testovalo odpojení od internetu, ruské zneužití softwaru…

Reklama přímo v systému televize? Kdyby nešla vypnout, koleduje si Philips o problém

OSA chce 90 Kč z každého chytrého telefonu, Nejvyšší soud souhlasí

Češi vyslali svařovacího robota do vesmíru a brzy to zkusí znovu. Připravují se však na víc

Tuzemské cestovní náhrady v roce 2025

Zálohování s Baculou: otevřený systém pro komplexní scénáře

Krátké vlny: Priority polského předsednictví a útoky na cloudovou infrastrukturu

Přinášíme souhrn příběhů podnikatelů roku 2024. Inspirujte se jejich nadšením

Dále u nás najdete

Neplaťte si IT kurzy sami, využijte dotace od EU

Lékaři chtějí po lidech pokutu, když objednaný pacient nedorazí

Nové HDMI 2.2 už je za rohem

Změny v sociálním pojištění od roku 2025 v oblasti zaměstnávání

Při balení dárků nemusíte vůbec používat izolepu, dokonce ani papír

Tyhle věci nezapomeňte do konce roku udělat, ušetříte tisíce

Outlook, jak ho známe, končí. Co ho nahradí a kdy?

Nedostatečné zabezpečení koncových zařízení ohrožuje firmy

Ona pracuje s jehlou a nití, on se štětci a barvami

Změna komunikace Petra Fialy se nepovedla, je v ní vidět křečovitost

Hranolky, pizza, tatarák: příběhy pokrmů jsou často vymyšlené

Trpaslíci, kam se podíváš. Vánoční kampaň chytře propojila kanály

Let's Encrypt příští rok nabídne certifikáty jen na šest dnů

Intel vydal slušnou grafickou kartu Arc B580

I diabetici si mohou dát cukroví. Místo piva však raději střik

OSA chce 90 Kč z každého prodaného chytrého telefonu

640 kB paměti by mělo stačit každému: skutečně?

Vánoce v minulosti: Oplzlé koledy, bujaré veselí a na večeři hrachová kaše.

Naše pleť je pruhovaná, lidské tělo svítí

Technologické trendy, které se v roce 2025 nestanou