Open Source Python OCR API for at gøre billed-PDF'er søgbare
En kraftfuld gratis Python OCR API, der automatiserer OCR-processen og letter konverteringen af scannede PDF-billeder til fuldt søgbare dokumenter med lethed.
Optical Character Recognition (OCR) teknologi har revolutioneret den måde, vi håndterer og behandler dokumenter på, hvilket gør os i stand til at udtrække værdifuld information effektivt. Blandt de mange tilgængelige OCR-værktøjer skiller OCRmyPDF sig ud som et alsidigt og kraftfuldt Python-bibliotek, der kombinerer brugervenlighed med enestående nøjagtighed. OCRmyPDF er et open source-kommandolinjeværktøj og Python-bibliotek designet specifikt til at tilføje OCR til eksisterende PDF-filer. Biblioteket analyserer hver side i en PDF-fil for at bestemme det farverum og opløsning (DPI), der er nødvendigt for at fange alle oplysningerne på den side uden at miste indhold.
Open source OCRmyPDF-biblioteket understøtter en lang række inputformater, inklusive scannede billeder, eksisterende PDF'er og endda DjVu-filer. Den opererer på præmissen om "billede plus tekst" og sigter mod at producere output af høj kvalitet ved at bevare det originale dokuments struktur og formatering. Biblioteket anvender PDF-optimeringsteknikker til at reducere filstørrelsen og samtidig opretholde den højest mulige kvalitet. Ved at anvende komprimering og nedsampling sikrer det, at de resulterende OCR-aktiverede PDF-filer både er effektive at gemme og hurtige at indlæse.
OCRmyPDF bruger den robuste Tesseract OCR-motor, som understøtter over 100 sprog. Dens avancerede algoritmer sikrer nøjagtig genkendelse af tekst, selv fra billeder i lav kvalitet eller forvrængede. Biblioteket har givet support til nemt at generere en søgbar PDF/A-fil fra en almindelig PDF. Det giver også nogle billedbehandlingsmuligheder, såsom deskew, som forbedrer udseendet af filer og kvaliteten af OCR. Når disse bruges, bliver OCR-laget podet på det behandlede billede i stedet. Dets omfattende funktionssæt, herunder understøttelse af flere sprog, PDF-optimering, tekstlagskontrol og automatiseret behandling, gør det til et værdifuldt værktøj for virksomheder, forskere, arkivarer og alle, der beskæftiger sig med store mængder scannede dokumenter.
Kom godt i gang med OCRmyPDF
Den anbefalede måde at installere OCRmyPDF på er at bruge pip. Brug venligst følgende kommando for en problemfri installation.
Installer OCRmyPDF via pip
pip install ocrmypdf
Du kan også installere det manuelt; download de seneste udgivelsesfiler direkte fra GitHub-lageret.
PDF-optimering ved hjælp af Python API
Open source OCRmyPDF-biblioteket har understøttet en meget nyttig funktion til at styre størrelsen og kvaliteten af PDF-dokumenter i Python-programmer. Biblioteket anvender PDF-optimeringsteknikker til at reducere filstørrelsen og samtidig opretholde den højest mulige kvalitet. Ved at anvende komprimering og ned-sampling sikrer det, at de resulterende OCR-aktiverede PDF-filer både er effektive at gemme og hurtige at indlæse. OCRmyPDF giver flere optimeringsmuligheder, som du kan tilpasse baseret på dine krav. Nogle almindeligt anvendte muligheder inkluderer fjernelse af midlertidige filer, anvendelse af JBIG2-komprimering, spring over at tilføje OCR, deaktivering af tabsfri komprimering for at maksimere filstørrelsesreduktion og så videre.
Hvordan optimerer man PDF-filer ved hjælp af Python API?
import subprocess
def optimize_pdf_with_ocrmypdf(input_pdf_path, output_pdf_path):
try:
# OCRmyPDF command with optimization options
command = ['ocrmypdf', '-l', 'eng', '--pdf-renderer', 'hocr', '--optimize', '0', input_pdf_path, output_pdf_path]
# Execute the OCRmyPDF command
subprocess.run(command, check=True)
print("PDF optimization complete!")
except subprocess.CalledProcessError as e:
print(f"OCRmyPDF error: {e}")
# Example usage
input_pdf_path = 'input.pdf'
output_pdf_path = 'output.pdf'
optimize_pdf_with_ocrmypdf(input_pdf_path, output_pdf_path)
PDF-tekstlagsintegration via Python API
OCRmyPDF, et open source-bibliotek, giver en kraftfuld løsning til at integrere tekstlag i PDF-filer, hvilket forbedrer dokumenttilgængelighed og søgeevne. Biblioteket tilføjer et tekstlag indeholdende OCR-genereret tekst direkte på PDF-dokumentet, hvilket sikrer bevarelsen af det originale layout. Denne funktion muliggør fuldtekstsøgning, copy-paste og tekstudtræk. Når du arbejder med PDF-dokumenter, er det meget fordelagtigt at have et tekstlag integreret i filen. Tekstlaget indeholder den genkendte OCR-genererede tekst, hvilket gør PDF'en søgbar og muliggør nem kopiering og udtrækning af tekst. Denne integration bevarer det originale dokumentlayout, samtidig med at den muliggør tekstbaserede operationer, hvilket forbedrer dokumentbrugbarheden og effektiviteten.