1. produkty
  2.   OCR
  3.   Ruby
  4.   Ruby-Tesseract-OCR
 
  

Pokročilá bezplatná knihovna Ruby pro načítání a extrahování textu z obrázků

Přední Open Source Ruby OCR API a převaděč obrázků na text, který umožňuje vývojářům softwaru načítat, rozpoznávat a extrahovat text z obrázků (naskenované obrázky a soubory PDF)

Optické rozpoznávání znaků (OCR) je výkonná technologie, která počítačům umožňuje rozpoznávat a extrahovat text z obrázků nebo naskenovaných dokumentů. Má četné aplikace, od digitalizace tištěných materiálů až po automatizaci procesů zadávání dat. V programovacím jazyce Ruby je jednou z populárních knihoven pro OCR Ruby-Tesseract-OCR. Ruby-Tesseract-OCR je drahokam Ruby, který slouží jako obal pro OCR engine Tesseract. Tesseract je Open Source OCR engine vyvinutý společností Google a je známý svou přesností a jazykovou podporou.

Ruby-Tesseract-OCR přesahuje základní možnosti OCR a nabízí další funkce pro pokročilé případy použití. Vývojáři softwaru mohou například specifikovat oblast zájmu (ROI) v rámci snímku a omezit tak analýzu OCR na určitou oblast. To je užitečné zejména při práci se složitými dokumenty nebo když potřebujete extrahovat text pouze z určité části. Knihovna poskytuje několik dalších funkcí pro vylepšení schopností OCR, jako je načítání existujícího obrázku, extrahování textu z obrázků nebo naskenovaných dokumentů, získávání výstupu HOCR (HTML OCR) a mnoho dalších.

Gem Ruby-Tesseract-OCR poskytuje snadno použitelné rozhraní pro interakci s enginem Tesseract, což umožňuje vývojářům Ruby integrovat funkce OCR do svých projektů bez námahy. Ať už potřebujete extrahovat informace z faktur, digitalizovat tištěné materiály nebo automatizovat úlohy zadávání dat, open source knihovna poskytuje spolehlivé a efektivní řešení. Vyzkoušejte to a odemkněte potenciál OCR ve svých projektech Ruby ještě dnes.

Previous Next

Začínáme s Ruby-Tesseract-OCR

Doporučený způsob instalace Ruby-Tesseract-OCR je použití Rubygems. Pro bezproblémovou instalaci použijte prosím následující příkaz.

Nainstalujte Ruby-Tesseract-OCR přes Rubygems

gem install tesseract-ocr 

Zkompilovanou sdílenou knihovnu si můžete stáhnout z úložiště Github.

Extrahujte text z obrázků a naskenovaných dokumentů prostřednictvím Ruby

Ruby-Tesseract-OCR je velmi výkonná knihovna s otevřeným zdrojovým kódem, která umožňuje vývojářům softwaru načítat a extrahovat text z různých typů obrázků pomocí pouhých několika řádků kódu Ruby. Knihovna usnadňuje extrahování textu z obrázků, PDF nebo naskenovaných dokumentů. Typický pracovní postup zahrnuje načtení obrázku, konfiguraci parametrů OCR a vyvolání nástroje OCR k rozpoznání textu. Pro úspěšnou operaci musí vývojáři poskytnout cestu k obrázku, který chtějí zpracovat, a zavolat metodu text_for pro extrakci textu. Nakonec bude výsledek vytištěn na konzole. Knihovna nabízí různé možnosti konfigurace F pro ovládání chování OCR, jako je režim segmentace stránky, seznam povolených znaků a další. Následující příklady ukazují, jak mohou vývojáři softwaru načíst obrázek JPEG a extrahovat z něj text v aplikacích Ruby.

Jak extrahovat text z obrázků pomocí příkazů Ruby?

require 'tesseract'

e = Tesseract::Engine.new {|e|
  e.language  = :eng
  e.blacklist = '|'
}

e.text_for('test/first.png').strip # => 'ABC'

Extrahujte text z konkrétní oblasti obrázku pomocí Ruby

Open source knihovna Ruby-Tesseract-OCR přesahuje základní možnosti OCR a nabízí další funkce pro pokročilé případy použití. Uživatelé mohou například určit oblast zájmu (ROI) v rámci snímku a omezit tak analýzu OCR na určitou oblast. To je užitečné zejména při práci se složitými dokumenty nebo když uživatelé potřebují extrahovat text pouze z určité části. Knihovna navíc poskytuje metody pro získání výstupu HOCR (HTML OCR), který zahrnuje nejen rozpoznaný text, ale také informace o rozložení a souřadnicích textových prvků. Výstup HOCR je užitečný, když potřebujete podrobnější data nebo chcete provést další analýzu struktury textu.

Jak provést hOCR na obrázku prostřednictvím knihovny Ruby?

require 'tesseract'

e = Tesseract::Engine.new {|e|
  e.language  = :eng
  e.blacklist = '|'
}

puts e.hocr_for('test/first.png')
 Čeština