Jak funguje Image-to-Text (aka optické rozpoznávání znaků)

reklama

Vytahování textu z obrázků nebylo nikdy jednodušší, než je tomu dnes díky technologii optického rozpoznávání znaků (OCR).

OCR nám umožňuje dělat všechny druhy užitečných věcí, jako je vyhledávání obrázků pomocí textových dotazů, reprodukce dokumentů bez jejich ručního psaní, a dokonce i převádění ručně psaného textu na digitální text Jak převést obrázek pomocí rukopisu na text pomocí OCRPotřebujete digitalizovat ručně psané poznámky pro úpravy nebo je uložit na později? Zde jsou nejlepší nástroje OCR pro převod rukopisu na text. Přečtěte si více .

Co je to optické rozpoznávání znaků? Jak to vlastně funguje? Může se vám to zdát jako černá magie, ale na konci tohoto článku budete rozumět tomu, jak počítače rozpoznávají písmena a slova.

Jak funguje optické rozpoznávání znaků

Abychom pochopili, jak se text získává z obrázku, musíme nejprve pochopit, jaké obrázky jsou a jak jsou uloženy v počítačích.

A pixel je jedna tečka určité barvy. An obraz je v podstatě soubor pixelů. Čím více obrazových bodů v obrázku, tím vyšší je jeho rozlišení. Počítač neví, že obrázek rozcestníku je skutečně rozcestník - prostě ví, že první pixel je tato barva, další pixel je tato barva a zobrazí všechny jeho pixely, abyste je viděli.

instagram viewer

To znamená, že text a netext se neliší od počítače, a proto je optické rozpoznávání znaků tak obtížné. S ohledem na to, jak to funguje.

Krok 1: Předběžné zpracování obrazu

Než bude možné text vytáhnout, je třeba určitým způsobem masírovat obrázek, aby se extrakce usnadnila a s větší pravděpodobností uspěla. Tomu se říká předzpracování a různá softwarová řešení používají různé kombinace technik.

Mezi běžnější techniky předběžného zpracování patří:

Binarizace
Každý jednotlivý pixel v obrázku je převeden na černou nebo bílou. Cílem je objasnit, které pixely patří k textu a které pixely patří do pozadí, což urychluje skutečný proces OCR.

Binarizace pro optické rozpoznávání znaků

Deskew
Protože jsou dokumenty zřídkakdy skenovány s dokonalým zarovnáním, znaky mohou skončit šikmo nebo dokonce vzhůru nohama. Cílem je identifikovat vodorovné textové čáry a poté otočit obrázek tak, aby tyto řádky byly ve skutečnosti vodorovné.

Odvápnit se
Ať už byl obraz binarizován nebo ne, může existovat šum, který může rušit identifikaci znaků. Odstranění šumu odstraní tento šum a pokusí se vyhladit obraz.

Odstranění linky
Identifikuje všechny řádky a značky, které pravděpodobně nejsou znaky, a poté je odebere, takže skutečný proces OCR nebude zmaten. Je to zvláště důležité při skenování dokumentů pomocí tabulek a krabic.

Územní
Rozdělí obrázek na odlišné části textu, například identifikuje sloupce v dokumentech s více sloupci.

Územní členění pro optické rozpoznávání znaků — Obrázek Kredit: WayneRay /Wikimedia

Krok 2: Zpracování obrázku

Nejprve se proces OCR nejprve pokusí stanovit základní linii pro každý řádek textu v obrázku (nebo pokud byl předem upraven na zóny, bude procházet každou zónou po jedné). Každý identifikovaný řádek znaků je zpracováván jeden po druhém.

Pro každý řádek znaků software OCR identifikuje mezery mezi znaky hledáním vertikálních řádků netextových pixelů (což by mělo být zřejmé při správné binarizaci). Každý kus pixelů mezi těmito netextovými řádky je označen jako „token“, který představuje jeden znak. Tento krok se tedy nazývá tokenizace.

Zpracování obrazu pro optické rozpoznávání znaků

Jakmile jsou všechny potenciální znaky v obraze tokenizovány, software OCR může pomocí dvou různých technik identifikovat, jaké znaky tyto tokeny ve skutečnosti jsou:

Rozpoznávání vzorů
Každý token je porovnáván mezi jednotlivými pixely proti celé sadě známých glyfů - včetně čísel, interpunkčních znamének a dalších speciálních symbolů - a vybere se nejbližší shoda. Tato technika je známá také jako maticové párování.

Zde je několik nedostatků. Za prvé, tokeny a glyfy musí mít podobnou velikost, jinak se žádný z nich nebude shodovat. Za druhé, tokeny musí být v podobném písmu jako glyfy, které vylučují rukopis. Pokud je však známo písmo tokenu, může být rozpoznávání vzorů rychlé a přesné.

Extrakce funkcí
Každý token je porovnáván s odlišnými pravidly, která popisují, jaký druh charakteru to může být. Například dvě svislé čáry stejné výšky spojené jednou vodorovnou čarou budou pravděpodobně velkým písmenem H.

Tato technika je užitečná, protože není omezena na určitá písma nebo velikosti. Může být také více rozlišován při rozpoznávání jemných rozdílů mezi velkým písmenem I, malým písmenem L a číslem 1. Nevýhoda? Programování pravidel je mnohem složitější než prosté srovnání pixelů v tokenu s pixely v glyfu.

Krok 3: Další zpracování obrázku

Po dokončení veškerého porovnávání tokenů by software OCR mohl zavolat pouze jeden den a představit vám výsledky. Obvykle je však třeba udělat trochu víc mazlení, abyste se ujistili, že se vám neotáčí vaše oči na neuvěřitelné výsledky.

Lexikální omezení
Všechna slova jsou porovnána s lexikonem schválených slov a všechna slova, která se neshodují, jsou nahrazena nejbližšími vhodnými slovy. Slovník je jedním příkladem lexikonu. To může pomoci opravit slova s chybnými znaky, jako je „trn“ místo „th0rn“.

Optimalizace specifické pro aplikaci
Pokud je OCR používán ve výklencích, například pro lékařské nebo právní dokumenty, lze použít speciální druh OCR, který je speciálně navržen pro toto nastavení. V těchto případech může software OCR hledat matematické rovnice, pojmy specifické pro dané odvětví atd.

Přirozený jazyk
Tato pokročilá technika opravuje věty pomocí jazykového modelu, který popisuje, jak pravděpodobně budou určitá slova následována jinými slovy. Je to podobné technologii, která předpovídá, jaké slovo chcete psát dále na mobilní klávesnici.

Pokud se to povede dobře, může to vést k pozoruhodně čitelnému textu.

Doporučené nástroje pro optické rozpoznávání znaků

Nyní, když víte, jak OCR funguje, by mělo být snadné vidět, že ne všechny nástroje OCR jsou si rovny. Přesnost vašich výsledků bude do značné míry záviset na tom, jak dobře implementuje různé techniky OCR diskutované v tomto článku.

Důrazně doporučujeme OneNote, což je jen jeden důvod proč to bije Evernote pro psaní poznámek Evernote vs. OneNote: Která aplikace pro psaní poznámek je pro vás ta pravá?Evernote a OneNote jsou úžasné aplikace pro psaní poznámek. Je těžké si mezi nimi vybrat. Abychom vám pomohli s výběrem, porovnali jsme vše od rozhraní po organizaci organizace. Co pro vás nejlépe funguje? Přečtěte si více . Pokud jste ochotni zaplatit za prémiové řešení, zvažte OmniPage. Podívejte se na naše srovnání OneNote vs. OmniPage pro OCR Zdarma vs Placený software OCR: Microsoft OneNote a Nuance OmniPage ve srovnáníSoftware OCR skeneru umožňuje převádět text v obrázcích nebo PDF do upravitelných textových dokumentů. Je bezplatný nástroj OCR jako OneNote dost dobrý? Pojďme to zjistit! Přečtěte si více . U mobilních dokumentů je budete chtít vyzkoušet Aplikace OCR pro zařízení Android 6 nejlepších Android OCR aplikací pro extrahování textu z obrázkůPotřebujete digitalizovat jakýkoli tištěný text, abyste jej mohli udržovat v měkké kopii? Pokud ano, potřebujete pouze nástroj pro optické rozpoznávání znaků (OCR). Přečtěte si více .

Jak používáte OCR? Máte nějaké oblíbené nástroje OCR, které jsme nezmínili? Dejte nám vědět v komentářích níže!

Joel Lee má B.S. v oblasti informatiky a více než šest let praxe v psaní. Je šéfredaktorem MakeUseOf.

About Technology - denizatm.com

Jak funguje Image-to-Text (aka optické rozpoznávání znaků)

Jak funguje optické rozpoznávání znaků

Krok 1: Předběžné zpracování obrazu

Krok 2: Zpracování obrázku

Krok 3: Další zpracování obrázku

Doporučené nástroje pro optické rozpoznávání znaků

kategorie

Recent Post

Proč se můj externí disk nezobrazuje a co mám dělat?

Kde najdu bezplatné zvukové knihy?

Jak mohu odstranit vyskakovací reklamy z mého blogu Blogger?