Pokud jste student nebo vaše práce zahrnuje práci se spoustou obrázků a PDF, měli byste v určitém okamžiku pocit, že potřebujete extrahovat text z obrázku nebo dokumentu.
Naštěstí to umožňuje extrakce textu. A existuje několik nástrojů, které k tomu můžete použít. gImageReader je jedním z mnoha nástrojů. Je zdarma k použití a funguje jak s obrazovými soubory, tak s dokumenty PDF.
Pojďme se podívat na gImageReader podrobně a podívat se, jak jej můžete použít k extrahování textu z obrázků a PDF.
Co je gImageReader?
gImageReader je aplikace, která umožňuje extrahovat text z obrázků a souborů PDF v systému Linux. Je to v podstatě GUI nebo front-end OCR engine Tesseract, an open-source motor vyvinutý společností Hewlett-Packard, který je považován za jeden z nejlepších dostupných OCR motorů.
S gImageReader můžete snadno a poměrně přesně extrahovat text z obrázků nebo dokumentů PDF pomocí několika jednoduchých kliknutí. Extrahovaný text pak můžete exportovat do textového nebo PDF souboru pro další použití.
Vlastnosti gImageReader
gImageReader obsahuje následující funkce:
- Importujte dokumenty a obrázky PDF z různých zdrojů (disk, skenovací zařízení, schránka a snímek obrazovky)
- Dávkové zpracování obrázků nebo dokumentů, tj. extrahování textu z více obrázků nebo dokumentů najednou
- Rozpoznejte úryvky textu jako prostý text nebo dokumenty hOCR
- Vestavěná kontrola pravopisu
- Automatická detekce textové oblasti
- Základní úprava obrázků/dokumentů
- Uložit výstup jako textový soubor
Jak nainstalovat gImageReader na Linux
gImageReader je k dispozici na většina hlavních linuxových distribucí. Než však přistoupíte k jeho instalaci, musíte do svého systému nainstalovat jádro Tesseract OCR.
Chcete-li to provést, otevřete Správce softwaru ve vašem systému a vyhledejte tesseract. Když vrátí seznam výsledků, nainstalujte tesseract-ocr a tesseract-ocr-eng balíčky. Můžete také použít správce balíčků příkazového řádku k instalaci balíčku, pokud vám více vyhovuje terminál.
Poté si přečtěte instalační pokyny v následujících částech a nainstalujte gImageReader do počítače.
Pokud používáte Debian nebo Ubuntu, otevřete terminál a spusťte níže uvedené příkazy pro instalaci gImageReader:
sudo add-apt-repository ppa: sandromani/gimagereader
sudo apt-dostat Aktualizace
sudo apt Nainstalujte čtečka obrázků
Na Fedoře, CentOS nebo Red Hat Enterprise Linux (RHEL):
sudo dnf Nainstalujte gimagereader-qt
Na Arch Linux nebo Manjaro:
sudo pacman -S gimagereader
Uživatelé openSUSE mohou nainstalovat gImageReader pomocí:
sudo zip Nainstalujte čtečka obrázků
V případě, že používáte jakoukoli jinou distribuci Linuxu, můžete sestavit gImageReader ze zdroje podle pokynů na GitHub gImageReader.
Jak používat gImageReader na Linuxu
gImageReader se velmi snadno používá a pracuje se všemi druhy obrazových souborů i s dokumenty PDF. Chcete-li v systému Linux extrahovat text z obrázků nebo souborů PDF, postupujte podle pokynů níže.
Otevřete nabídku aplikací, vyhledejte gImageReadera spusťte aplikaci. Udeř Maximalizovat v okně gImageReader a otevřete jej v zobrazení na celou obrazovku.
Nyní klikněte na Přidejte obrázky v levém podokně pod panelem nástrojů a pomocí prohlížeče souborů vyberte obrázek(y) nebo PDF(y), ze kterých chcete extrahovat text.
Klikněte OK pro import obrázku(ů) nebo PDF(ů) do gImageReader. Nebo, pokud chcete extrahovat text z toho, co je zobrazeno na obrazovce, klikněte na rozevírací seznam vedle Přidejte obrázky tlačítko a vyberte Udělejte snímek obrazovky. gImageReader pořídí snímek obrazovky obsahu obrazovky.
Po přidání obrázku do gImageReader klikněte na Přepnout podokno výstupu tlačítko (jedno s ikonou poznámkového bloku) pro vyvolání podokna výstupu. Zde se objeví text, který extrahujete z obrázků nebo souborů PDF.
Podle toho, jak chcete postupovat, máte nyní možnost identifikovat text v obrázku nebo PDF automaticky nebo ručně. Chcete-li to provést automaticky, klikněte na Autodetekce rozložení a zvýrazní všechny textové bloky ve vybraném obrázku nebo dokumentu PDF.
Poté klepněte na Rozpoznat výběr > Aktuální stránka pro zahájení procesu extrakce textu.
Chcete-li text vybrat ručně, umístěte ukazatel myši na text, který chcete extrahovat, a pomocí zaměřovacího kříže nakreslete rámeček kolem oblasti, odkud chcete text extrahovat. Poté klepněte na Rozpoznat výběr tlačítko pro pokračování.
Pokud se jedná o dokument PDF a chcete extrahovat text z různých stránek, klepněte na Plus (+) pro převrácení stránek.
Chcete-li se vrátit, stiskněte Mínus (-) knoflík. A pak vyberte text, který chcete extrahovat, a stiskněte Rozpoznat výběr tlačítko pro jeho extrahování.
I když je to vzácné, může se stát, že gImageReader vrátí extrahovaný text v jiném jazyce než v angličtině. Když k tomu dojde, jednoduše klepněte na rozbalovací tlačítko vedle Rozpoznat výběr a vyberte jednu z anglických možností.
Nakonec pro uložení extrahovaného textu klikněte na Uložit výstup knoflík. Tím se zobrazí okno Uložit. Zde zadejte název souboru a stiskněte OK.
Co dalšího můžete s gImageReaderem dělat?
Jak již bylo zmíněno dříve, gImageReader vám také dává možnost upravit určité aspekty importovaných obrázků nebo dokumentů, jako je jejich jas, kontrast a rozlišení. Kromě toho můžete v případě potřeby také invertovat barvy nebo otáčet obrázky nebo dokumenty.
Většina z těchto možností se může ukázat jako užitečná, když text v obrázku nebo dokumentu není pro gImageReader čitelný, a proto nástroji brání v rozpoznání textu.
Chcete-li získat přístup ke kterékoli z těchto možností úprav, klepněte na Ovládání obrazu a pod hlavním panelem nástrojů se zobrazí mini panel nástrojů. Odtud vyberte příslušná tlačítka k provedení požadované operace úprav na obrázku nebo dokumentu.
Extrakce textu na Linuxu je snadná s gImageReader
Extrakce textu často vyžaduje správný nástroj: takový, který využívá spolehlivý a přesný OCR engine umožňuje efektivně identifikovat text v obrázku nebo dokumentu, takže jej můžete efektivně extrahovat bez jakéhokoli hádka.
gImageReader to dělá pěkně, díky enginu Tesseract OCR, který používá na pozadí. Vzhledem ke snadnému použití je gImageReader nepochybně jedním z nejlepších nástrojů pro extrakci textu dostupných pro Linux.
Případně, pokud hledáte jednodušší řešení, můžete se podívat na TextSnatcher, který je rychlý a docela snadno se používá.