Open Source Python OCR API, aby bylo možné prohledávat soubory PDF
Výkonné bezplatné Python OCR API pro automatizaci procesu OCR a usnadnění převodu naskenovaných obrázků PDF na plně prohledávatelné dokumenty.
Technologie optického rozpoznávání znaků (OCR) způsobila revoluci ve způsobu, jakým zpracováváme a zpracováváme dokumenty, a umožňuje nám efektivně extrahovat cenné informace. Mezi mnoha dostupnými nástroji OCR vyniká OCRmyPDF jako všestranná a výkonná knihovna Pythonu, která kombinuje snadné použití s výjimečnou přesností. OCRmyPDF je open-source nástroj příkazového řádku a knihovna Python navržená speciálně pro přidávání OCR do existujících souborů PDF. Knihovna analyzuje každou stránku souboru PDF, aby určila barevný prostor a rozlišení (DPI) potřebné k zachycení všech informací na této stránce bez ztráty obsahu.
Open source knihovna OCRmyPDF podporuje širokou škálu vstupních formátů, včetně naskenovaných obrázků, existujících PDF a dokonce i souborů DjVu. Funguje na základě principu „obrázek plus text“ a jeho cílem je vytvářet vysoce kvalitní výstup zachováním struktury a formátování původního dokumentu. Knihovna využívá techniky optimalizace PDF ke snížení velikosti souboru při zachování nejvyšší možné kvality. Použitím komprese a převzorkování zajišťuje, že výsledné soubory PDF s podporou OCR lze efektivně ukládat a rychle načítat.
OCRmyPDF využívá robustní OCR engine Tesseract, který podporuje více než 100 jazyků. Jeho pokročilé algoritmy zajišťují přesné rozpoznání textu i z nekvalitních nebo zdeformovaných obrázků. Knihovna poskytuje podporu pro snadné generování prohledávatelného souboru PDF/A z běžného PDF. Poskytuje také některé možnosti zpracování obrazu, jako je vyrovnání zešikmení, které zlepšuje vzhled souborů a kvalitu OCR. Když jsou tyto použity, vrstva OCR se místo toho naroubuje na zpracovaný obraz. Jeho komplexní sada funkcí, včetně podpory více jazyků, optimalizace PDF, ovládání textové vrstvy a automatického zpracování, z něj dělá cenný nástroj pro firmy, výzkumníky, archiváře a kohokoli, kdo pracuje s velkými objemy naskenovaných dokumentů.
Začínáme s OCRmyPDF
Doporučený způsob instalace OCRmyPDF je použití pip. Pro bezproblémovou instalaci použijte prosím následující příkaz.
Nainstalujte OCRmyPDF přes pip
pip install ocrmypdf
Můžete jej také nainstalovat ručně; stáhněte si nejnovější soubory vydání přímo z úložiště GitHub.
Optimalizace PDF pomocí Python API
Open source knihovna OCRmyPDF poskytuje podporu velmi užitečných funkcí pro správu velikosti a kvality dokumentů PDF v aplikacích Python. Knihovna využívá techniky optimalizace PDF ke snížení velikosti souboru při zachování nejvyšší možné kvality. Použitím komprese a převzorkování zajišťuje, že výsledné soubory PDF s podporou OCR lze efektivně ukládat a rychle načítat. OCRmyPDF poskytuje několik možností optimalizace, které si můžete přizpůsobit podle svých požadavků. Některé běžně používané možnosti zahrnují odstranění dočasných souborů, použití JBIG2 komprese, přeskočení přidání OCR, zakázání bezztrátové komprese pro maximalizaci zmenšení velikosti souboru a tak dále.
Jak optimalizovat soubory PDF pomocí Python API?
import subprocess
def optimize_pdf_with_ocrmypdf(input_pdf_path, output_pdf_path):
try:
# OCRmyPDF command with optimization options
command = ['ocrmypdf', '-l', 'eng', '--pdf-renderer', 'hocr', '--optimize', '0', input_pdf_path, output_pdf_path]
# Execute the OCRmyPDF command
subprocess.run(command, check=True)
print("PDF optimization complete!")
except subprocess.CalledProcessError as e:
print(f"OCRmyPDF error: {e}")
# Example usage
input_pdf_path = 'input.pdf'
output_pdf_path = 'output.pdf'
optimize_pdf_with_ocrmypdf(input_pdf_path, output_pdf_path)
Integrace textové vrstvy PDF přes Python API
OCRmyPDF, knihovna s otevřeným zdrojovým kódem, poskytuje výkonné řešení pro integraci textových vrstev do souborů PDF, čímž zlepšuje dostupnost dokumentů a možnost vyhledávání. Knihovna přidá textovou vrstvu obsahující text generovaný OCR přímo do dokumentu PDF, čímž zajistí zachování původního rozvržení. Tato funkce umožňuje fulltextové vyhledávání, kopírování-vkládání a extrakci textu. Při práci s dokumenty PDF je velmi výhodné mít v souboru integrovanou textovou vrstvu. Textová vrstva obsahuje rozpoznaný text generovaný OCR, díky čemuž lze v PDF prohledávat a umožňuje snadné kopírování a extrakci textu. Tato integrace zachovává původní rozvržení dokumentu a zároveň umožňuje operace založené na textu, což zlepšuje použitelnost a efektivitu dokumentů.