Open Source Python OCR API for å gjøre bilde-PDF-er søkbare
Et kraftig gratis Python OCR API for å automatisere OCR-prosessen og forenkle konverteringen av skannede PDF-bilder til fullt søkbare dokumenter.
Optical Character Recognition (OCR)-teknologi har revolusjonert måten vi håndterer og behandler dokumenter på, noe som gjør oss i stand til å trekke ut verdifull informasjon effektivt. Blant de mange tilgjengelige OCR-verktøyene skiller OCRmyPDF seg ut som et allsidig og kraftig Python-bibliotek som kombinerer brukervennlighet med eksepsjonell nøyaktighet. OCRmyPDF er et åpen kildekode-kommandolinjeverktøy og Python-bibliotek designet spesielt for å legge til OCR til eksisterende PDF-filer. Biblioteket analyserer hver side i en PDF-fil for å bestemme fargerommet og oppløsningen (DPI) som trengs for å fange opp all informasjonen på den siden uten å miste innhold.
Open source OCRmyPDF-biblioteket støtter et bredt spekter av inndataformater, inkludert skannede bilder, eksisterende PDF-er og til og med DjVu-filer. Den opererer på premisset om "bilde pluss tekst" og har som mål å produsere høykvalitets utdata ved å bevare originaldokumentets struktur og formatering. Biblioteket bruker PDF-optimaliseringsteknikker for å redusere filstørrelsen samtidig som den opprettholder høyest mulig kvalitet. Ved å bruke komprimering og nedsampling, sikrer det at de resulterende OCR-aktiverte PDF-filene er både effektive å lagre og raske å laste.
OCRmyPDF bruker den robuste Tesseract OCR-motoren, som støtter over 100 språk. De avanserte algoritmene sikrer nøyaktig gjenkjenning av tekst, selv fra bilder av lav kvalitet eller forvrengte bilder. Biblioteket har gitt støtte for å enkelt generere en søkbar PDF/A-fil fra en vanlig PDF. Det gir også noen bildebehandlingsalternativer, som forskyvning, som forbedrer utseendet til filer og kvaliteten på OCR. Når disse brukes, blir OCR-laget podet inn på det behandlede bildet i stedet. Dens omfattende funksjonssett, inkludert støtte for flere språk, PDF-optimalisering, tekstlagskontroll og automatisert behandling, gjør den til et verdifullt verktøy for bedrifter, forskere, arkivarer og alle som har å gjøre med store mengder skannede dokumenter.
Kom i gang med OCRmyPDF
Den anbefalte måten å installere OCRmyPDF på er å bruke pip. Bruk følgende kommando for en jevn installasjon.
Installer OCRmyPDF via pip
pip install ocrmypdf
Du kan også installere det manuelt; last ned de nyeste utgivelsesfilene direkte fra GitHub-depotet.
PDF-optimalisering ved hjelp av Python API
Åpen kildekode OCRmyPDF-biblioteket har gitt støtte en svært nyttig funksjon for å administrere størrelsen og kvaliteten på PDF-dokumenter i Python-applikasjoner. Biblioteket bruker PDF-optimaliseringsteknikker for å redusere filstørrelsen samtidig som den opprettholder høyest mulig kvalitet. Ved å bruke komprimering og nedsampling, sikrer det at de resulterende OCR-aktiverte PDF-filene er både effektive å lagre og raske å laste. OCRmyPDF gir flere optimaliseringsalternativer som du kan tilpasse basert på dine krav. Noen ofte brukte alternativer inkluderer å fjerne midlertidige filer, bruke JBIG2-komprimering, hoppe over å legge til OCR, deaktivere tapsfri komprimering for å maksimere filstørrelsesreduksjon og så videre.
Hvordan optimalisere PDF-filer ved hjelp av Python API?
import subprocess
def optimize_pdf_with_ocrmypdf(input_pdf_path, output_pdf_path):
try:
# OCRmyPDF command with optimization options
command = ['ocrmypdf', '-l', 'eng', '--pdf-renderer', 'hocr', '--optimize', '0', input_pdf_path, output_pdf_path]
# Execute the OCRmyPDF command
subprocess.run(command, check=True)
print("PDF optimization complete!")
except subprocess.CalledProcessError as e:
print(f"OCRmyPDF error: {e}")
# Example usage
input_pdf_path = 'input.pdf'
output_pdf_path = 'output.pdf'
optimize_pdf_with_ocrmypdf(input_pdf_path, output_pdf_path)
PDF Text Layer Integration via Python API
OCRmyPDF, et bibliotek med åpen kildekode, gir en kraftig løsning for å integrere tekstlag i PDF-filer, og forbedre dokumenttilgjengelighet og søkbarhet. Biblioteket legger til et tekstlag som inneholder OCR-generert tekst direkte på PDF-dokumentet, og sikrer bevaring av den opprinnelige layouten. Denne funksjonen muliggjør fulltekstsøk, kopi-liming og tekstutvinning. Når du arbeider med PDF-dokumenter, er det svært fordelaktig å ha et tekstlag integrert i filen. Tekstlaget inneholder den gjenkjente OCR-genererte teksten, noe som gjør PDF-en søkbar og muliggjør enkel kopiering og utpakking av tekst. Denne integrasjonen bevarer den originale dokumentlayouten samtidig som den muliggjør tekstbaserte operasjoner, noe som forbedrer dokumentbrukbarheten og effektiviteten.