přejít na obsah přejít na navigaci

Linux E X P R E S, OCRFeeder – Užitečný rozpoznávač textu, který však neumí česky

OCRFeeder – Užitečný rozpoznávač textu, který však neumí česky

ocrfeeder.png

Už se vám někdy stalo, že jste potřebovali naskenované dokumenty mimo prohlížení také editovat? Já dostal nedávno takto připravené studijní podklady. Na otázku co s nimi, vám možná odpoví následující řádky.


OCR pro domácí použití

OCRFeeder je, jak již název napovídá, program určený pro optické rozpoznání znaků a jejich převod do digitální podoby. Nejedná se přímo o program jako takový, ale o grafickou nástavbu pro více OCR programů. Díky této metodě je možné pomocí skenování digitalizovat tištěné texty, s nimiž je poté možno pracovat jako s normálním počítačovým textem. Program je vybaven GTK grafickým prostředím a můžete ho stáhnout z domovských stránek, více informací se také dozvíte na stránkách autora Joaquima Rocha. V některých distribucích ho také najdete v repozitáři.

A jak to vlastně funguje?

Představte si že máte nějaký text uložený v obrazovém formátu, jako je JPG, PNG atd. Možné je také použít PDF. Pak není nic snazšího než spustit OCRFeeder, v levém horním rohu kliknout na zelenou ikonu se symbolem plus a přidat požadovaný obrázek. Další možností je připojení vašeho skeneru a provést naskenování textu přímo z programu. Poté se vám naskenovaný nebo načtený text objeví v prostředním poli programu.

Po načtení obrazu je možné použít odstranění deformace obrazu a ulehčit načítání Po načtení obrazu je možné použít odstranění deformace obrazu a ulehčit načítání

Zvýrazněním pomocí myši vyberete text, který chcete převést do požadovaného formátu. Na vybranou máte prostý text, ODT nebo HTML. Pokud by jste chtěli převádět celý dokument, je jednoduší kliknout na tlačítko Rozpoznat dokument. Dojde k automatickému výběru textu, který bude označen modrou barvou, a k výběru obrázků, které jsou označeny barvou zelenou. Text, který vyberete, se zobrazí ve výřezu v pravém sloupci nahoře.

Příprava načteného textu před před převodem pomocí OCR Příprava načteného textu před před převodem pomocí OCR

V pravém sloupci dole zvolíte kartu Styl, na ní vyberete písmo a jeho velikost a uspořádání textu ve vytvářeném dokumentu. Před samotným naskenováním textu zvolíte požadovaný program, kterým chcete převod provést. Jako výchozí je nastaven program GORC. Dále máte možnost zvolit a použít Tesseract a já jsem dodatečně přidal Guneiform. Poté kliknete na tlačítko OCR. Dojde k převedení textu, který jste vybrali, a převedený obraz se zobrazí na kartě Text.

Po provedení OCR je vše připraveno pro export do požadovaného formátu Po provedení OCR je vše připraveno pro export do požadovaného formátu

V textu je pak možné provádět různé editace, jako je například úprava chybně rozpoznaných znaků a nebo kontrola překlepů. Možnost kontroly překlepů je v programu již implementována a je automaticky nastavena dle vašeho systému. Před samotným exportem stránky do ODT nebo jiného vámi zvoleného formátu je ještě nutné provést samotné nastavení této stránky. To provedete tak, že v liště nabídky kliknete na Úpravy | Upravit stránku a zvolíte parametry. Nejčastěji to bude formát A4 a ještě doporučuji zatrhnou volbu Nastavené pro všechny následující převody.

Pokud zapomenete na tento krok, převedete výběr na přednastavený formát 4,3 × 2,7 cm, což je taková mini stránka Pokud zapomenete na tento krok, převedete výběr na přednastavený formát 4,3 × 2,7 cm, což je taková mini stránka

Pak už jen stačí kliknout na tlačítko exportu ODT a uložit požadovaný text. Pokud byste však chtěli dokument uložit v jiném formátu, klikněte v liště na Soubor | Export a nastavte požadovaný formát exportu. V tomto případě jsme převedli text do formátu ODT a po uložení už jen zbývá upravit rámec textu a můžete s ním začít pracovat. Stále tady hovořím pouze o textu, samozřejmostí je ovšem i převod obrázků, nicméně pro nenáročnost této činnosti, tuto část vynechávám. Postup je stejný jako u textu, a to bez potřeby výše zmiňovaných úprav.

Je hotovo, text je převeden a můžete s ním libovolně pracovat Je hotovo, text je převeden a můžete s ním libovolně pracovat

Česká diakritika schází

Nic není ale tak dokonalé, jak se může na první pohled zdát. Záměrně jsem pro tento článek zvolil převod anglického textu, jelikož česká diakritika není bohužel podporována a jak jste si určitě všimli, ani anglický převod není bez chyby. Snažil jsem se proto provést konfigurace jednotlivých výkonných programů, ale bez úspěchu. Absence podpory českých znaků bude zcela určitě důvod, proč tento program nebude masově nasazen na strojích českých uživatelů.

Než tohle, to raději ruční přepis Než tohle, to raději ruční přepis

Jinak je nutné OCRFeeder pochválit za jednoduchost a přehlednost a nám nezbývá nic jiného než čekat na to, až se alespoň jeden z podporovaných OCR programů naučí číst česky.

Nahoru

Příspěvky

OCRFeeder – Užitečný rozpoznávač textu, který však neumí česky
MJABLKO 26. 05. 2011, 06:45:14
Odpovědět  Odkaz 
Pro rozpoznávání českých znaků upravte v nástroji OCRFeeder parametry příkazu:

pro cuneiform:

-l cze -f text -o $FILE $IMAGE > /dev/null 2> /dev/null && cat $FILE && rm $FILE


pro tesseract:

$IMAGE $FILE -l ces; cat $FILE.txt; rm $FILE
OCRFeeder – Užitečný rozpoznávač textu, který však neumí česky
MJABLKO 26. 05. 2011, 06:49:30
Odpovědět  Odkaz 
Pro tesseract musí být ještě nainstalován blík "tesseract-ocr-ces"
Václav Hejda Re:OCRFeeder – Užitečný rozpoznávač textu, který však neumí česky
Venca Hejda 26. 05. 2011, 20:19:47
Odpovědět  Odkaz 
Jak balík, tak úpravy v nastavení jsem provedl,

viz text článku: " Snažil jsem se proto provést konfigurace jednotlivých výkonných programů, ale bez úspěchu"

Čeština opravdu neběhala. Mohlo se ale, jednat o nějakou jinou chybu v instalaci programu. Pokud máte tedy někdo zkušenost s tímto programem opačnou, dejte prosím vědět, budu tomu rád! :o)
Re:Re:OCRFeeder – Užitečný rozpoznávač textu, který však neumí česky
MJABLKO 27. 05. 2011, 07:00:55
Odpovědět  Odkaz 
OCRFeeder a další OCR nástroje instaluji v Ubuntu z tohoto zdroje:
https://launchpad.net/~alex-p/+archive/notesalexp
(ppa:alex-p/notesalexp)
Vše po úpravě parametrů příkazu (viz výše) funguje bez problémů
Re:Re:OCRFeeder – Užitečný rozpoznávač textu, který však neumí česky
MJABLKO 27. 05. 2011, 10:58:01
Odpovědět  Odkaz 
Tak jsem to trochu otestoval.
České znaky lze rozpoznávat v OCRFeeder (po úpravě parametrů) od verze 0.7.xx
Pro nejnovější Ubuntu (11.04) je vhodný tento zdroj:
https://launchpad.net/~guido-iodice/+archive/natty-quasi-rolling
(ppa:guido-iodice/natty-quasi-rolling)
kde je momentálně verze 0.7.5
Odzkoušel jsem to dnes.
Jinak ale používám Ubuntu 10.10
OCRFeeder – Užitečný rozpoznávač textu, který však neumí česky
Ela 26. 05. 2011, 08:41:39
Odpovědět  Odkaz 
Pro cool OCR s podporou cestiny jednoznacne doporucuji "YAGF" ! :p
Jinak, pro win, IMO, je nejlepsi Finereader ;)

P.S. Asi neni nahoda, ze oba zminene pochazeji z dilny poctive ruske prace... :D :D

Přidat názor

Nejsou podporovány žádné značky, komentáře jsou jen čistě textové. Více o diskuzích a pravidlech najdete v nápovědě.
Diskuzi můžete sledovat pomocí RSS kanálu rss



 
 

Top články z OpenOffice.cz