1. Produkter
  2.   OCR
  3.   Python
  4.   OCRmyPDF
 
  

Open Source Python OCR API for å gjøre bilde-PDF-er søkbare

Et kraftig gratis Python OCR API for å automatisere OCR-prosessen og forenkle konverteringen av skannede PDF-bilder til fullt søkbare dokumenter.

Optical Character Recognition (OCR)-teknologi har revolusjonert måten vi håndterer og behandler dokumenter på, noe som gjør oss i stand til å trekke ut verdifull informasjon effektivt. Blant de mange tilgjengelige OCR-verktøyene skiller OCRmyPDF seg ut som et allsidig og kraftig Python-bibliotek som kombinerer brukervennlighet med eksepsjonell nøyaktighet. OCRmyPDF er et åpen kildekode-kommandolinjeverktøy og Python-bibliotek designet spesielt for å legge til OCR til eksisterende PDF-filer. Biblioteket analyserer hver side i en PDF-fil for å bestemme fargerommet og oppløsningen (DPI) som trengs for å fange opp all informasjonen på den siden uten å miste innhold.

Open source OCRmyPDF-biblioteket støtter et bredt spekter av inndataformater, inkludert skannede bilder, eksisterende PDF-er og til og med DjVu-filer. Den opererer på premisset om "bilde pluss tekst" og har som mål å produsere høykvalitets utdata ved å bevare originaldokumentets struktur og formatering. Biblioteket bruker PDF-optimaliseringsteknikker for å redusere filstørrelsen samtidig som den opprettholder høyest mulig kvalitet. Ved å bruke komprimering og nedsampling, sikrer det at de resulterende OCR-aktiverte PDF-filene er både effektive å lagre og raske å laste.

OCRmyPDF bruker den robuste Tesseract OCR-motoren, som støtter over 100 språk. De avanserte algoritmene sikrer nøyaktig gjenkjenning av tekst, selv fra bilder av lav kvalitet eller forvrengte bilder. Biblioteket har gitt støtte for å enkelt generere en søkbar PDF/A-fil fra en vanlig PDF. Det gir også noen bildebehandlingsalternativer, som forskyvning, som forbedrer utseendet til filer og kvaliteten på OCR. Når disse brukes, blir OCR-laget podet inn på det behandlede bildet i stedet. Dens omfattende funksjonssett, inkludert støtte for flere språk, PDF-optimalisering, tekstlagskontroll og automatisert behandling, gjør den til et verdifullt verktøy for bedrifter, forskere, arkivarer og alle som har å gjøre med store mengder skannede dokumenter.

Previous Next

Kom i gang med OCRmyPDF

Den anbefalte måten å installere OCRmyPDF på er å bruke pip. Bruk følgende kommando for en jevn installasjon.

Installer OCRmyPDF via pip

 pip install ocrmypdf 

Du kan også installere det manuelt; last ned de nyeste utgivelsesfilene direkte fra GitHub-depotet.

PDF-optimalisering ved hjelp av Python API

Åpen kildekode OCRmyPDF-biblioteket har gitt støtte en svært nyttig funksjon for å administrere størrelsen og kvaliteten på PDF-dokumenter i Python-applikasjoner. Biblioteket bruker PDF-optimaliseringsteknikker for å redusere filstørrelsen samtidig som den opprettholder høyest mulig kvalitet. Ved å bruke komprimering og nedsampling, sikrer det at de resulterende OCR-aktiverte PDF-filene er både effektive å lagre og raske å laste. OCRmyPDF gir flere optimaliseringsalternativer som du kan tilpasse basert på dine krav. Noen ofte brukte alternativer inkluderer å fjerne midlertidige filer, bruke JBIG2-komprimering, hoppe over å legge til OCR, deaktivere tapsfri komprimering for å maksimere filstørrelsesreduksjon og så videre.

Hvordan optimalisere PDF-filer ved hjelp av Python API?

import subprocess

def optimize_pdf_with_ocrmypdf(input_pdf_path, output_pdf_path):
    try:
        # OCRmyPDF command with optimization options
        command = ['ocrmypdf', '-l', 'eng', '--pdf-renderer', 'hocr', '--optimize', '0', input_pdf_path, output_pdf_path]
        
        # Execute the OCRmyPDF command
        subprocess.run(command, check=True)
        
        print("PDF optimization complete!")
    except subprocess.CalledProcessError as e:
        print(f"OCRmyPDF error: {e}")
        
# Example usage
input_pdf_path = 'input.pdf'
output_pdf_path = 'output.pdf'

optimize_pdf_with_ocrmypdf(input_pdf_path, output_pdf_path)

PDF Text Layer Integration via Python API

OCRmyPDF, et bibliotek med åpen kildekode, gir en kraftig løsning for å integrere tekstlag i PDF-filer, og forbedre dokumenttilgjengelighet og søkbarhet. Biblioteket legger til et tekstlag som inneholder OCR-generert tekst direkte på PDF-dokumentet, og sikrer bevaring av den opprinnelige layouten. Denne funksjonen muliggjør fulltekstsøk, kopi-liming og tekstutvinning. Når du arbeider med PDF-dokumenter, er det svært fordelaktig å ha et tekstlag integrert i filen. Tekstlaget inneholder den gjenkjente OCR-genererte teksten, noe som gjør PDF-en søkbar og muliggjør enkel kopiering og utpakking av tekst. Denne integrasjonen bevarer den originale dokumentlayouten samtidig som den muliggjør tekstbaserte operasjoner, noe som forbedrer dokumentbrukbarheten og effektiviteten.

 Norsk