Open Source Python OCR API om afbeeldings-PDF's doorzoekbaar te maken

Een krachtige gratis Python OCR-API om het OCR-proces te automatiseren en de conversie van gescande afbeeldings-PDF's met gemak naar volledig doorzoekbare documenten te vergemakkelijken.

Optical Character Recognition (OCR)-technologie heeft een revolutie teweeggebracht in de manier waarop we documenten verwerken en verwerken, waardoor we waardevolle informatie efficiënt kunnen extraheren. Onder de vele beschikbare OCR-tools valt OCRmyPDF op als een veelzijdige en krachtige Python-bibliotheek die gebruiksgemak combineert met uitzonderlijke nauwkeurigheid. OCRmyPDF is een open-source opdrachtregelprogramma en Python-bibliotheek die speciaal zijn ontworpen voor het toevoegen van OCR aan bestaande PDF-bestanden. De bibliotheek analyseert elke pagina van een PDF-bestand om de kleurruimte en resolutie (DPI) te bepalen die nodig zijn om alle informatie op die pagina vast te leggen zonder inhoud te verliezen.

De open source OCRmyPDF-bibliotheek ondersteunt een breed scala aan invoerformaten, waaronder gescande afbeeldingen, bestaande PDF's en zelfs DjVu-bestanden. Het werkt op het uitgangspunt van "afbeelding plus tekst" en streeft naar uitvoer van hoge kwaliteit door de structuur en opmaak van het originele document te behouden. De bibliotheek maakt gebruik van PDF-optimalisatietechnieken om de bestandsgrootte te verkleinen met behoud van de hoogst mogelijke kwaliteit. Door compressie en down-sampling toe te passen, zorgt het ervoor dat de resulterende PDF-bestanden met OCR zowel efficiënt kunnen worden opgeslagen als snel kunnen worden geladen.

OCRmyPDF maakt gebruik van de robuuste Tesseract OCR-engine, die meer dan 100 talen ondersteunt. De geavanceerde algoritmen zorgen voor nauwkeurige herkenning van tekst, zelfs van afbeeldingen van lage kwaliteit of vervormde afbeeldingen. De bibliotheek heeft ondersteuning geboden voor het eenvoudig genereren van een doorzoekbaar PDF/A-bestand op basis van een gewone PDF. Het biedt ook enkele opties voor beeldverwerking, zoals scheefstandcorrectie, waardoor de weergave van bestanden en de kwaliteit van OCR worden verbeterd. Wanneer deze worden gebruikt, wordt de OCR-laag in plaats daarvan op de verwerkte afbeelding geënt. De uitgebreide functieset, inclusief ondersteuning voor meerdere talen, PDF-optimalisatie, tekstlaagcontrole en geautomatiseerde verwerking, maakt het een waardevol hulpmiddel voor bedrijven, onderzoekers, archivarissen en iedereen die te maken heeft met grote hoeveelheden gescande documenten.

In één oogopslag

Een overzicht van de OCRmyPDF-functies.

Kenmerkenoverzicht

Voer OCR uit
Voeg OCR-mogelijkheden toe
Herken afbeeldingstekst
Convet afbeeldingen van tekst
Herkende lettertypetekst
PDF zoeken
Andere talen
Maak OCR-apps
Opslaan in browser
Tekst extraheren
Ondersteuning voor meerdere threads

OCRmyPDF

OCRmyPDF ondersteunt de populaire afbeeldingsbestandsindelingen die hieronder worden vermeld.

Lezer

PNG, JPEG, BMP, TIFF, TGA, DICOM

auteur

PNG, JPEG, BMP, TIFF

OCRmyPDF

Platformonafhankelijkheid

OCRmyPDF kan werken met Python 2.7 en hoger.

Python 2.7 en hoger.

OCRmyPDF

Aan de slag met OCRmyPDF

De aanbevolen manier om OCRmyPDF te installeren is met behulp van pip. Gebruik het volgende commando voor een vlotte installatie.

Installeer OCRmyPDF via pip

 pip install ocrmypdf

Je kunt het ook handmatig installeren; download de nieuwste releasebestanden rechtstreeks vanuit de GitHub repository.

PDF-optimalisatie met Python API

De open source OCRmyPDF-bibliotheek biedt ondersteuning voor zeer nuttige functies om de grootte en kwaliteit van PDF-documenten in Python-toepassingen te beheren. De bibliotheek maakt gebruik van PDF-optimalisatietechnieken om de bestandsgrootte te verkleinen met behoud van de hoogst mogelijke kwaliteit. Door compressie en downsampling toe te passen, zorgt het ervoor dat de resulterende PDF-bestanden met OCR zowel efficiënt kunnen worden opgeslagen als snel kunnen worden geladen. OCRmyPDF biedt verschillende optimalisatieopties die u kunt aanpassen op basis van uw vereisten. Enkele veelgebruikte opties zijn onder meer het verwijderen van tijdelijke bestanden, het toepassen van JBIG2-compressie, het overslaan van het toevoegen van OCR, het uitschakelen van verliesloze compressie om de bestandsgrootte te verkleinen, enzovoort.

Hoe kan ik PDF-bestanden optimaliseren met de Python API?

import subprocess

def optimize_pdf_with_ocrmypdf(input_pdf_path, output_pdf_path):
    try:
        # OCRmyPDF command with optimization options
        command = ['ocrmypdf', '-l', 'eng', '--pdf-renderer', 'hocr', '--optimize', '0', input_pdf_path, output_pdf_path]
        
        # Execute the OCRmyPDF command
        subprocess.run(command, check=True)
        
        print("PDF optimization complete!")
    except subprocess.CalledProcessError as e:
        print(f"OCRmyPDF error: {e}")
        
# Example usage
input_pdf_path = 'input.pdf'
output_pdf_path = 'output.pdf'

optimize_pdf_with_ocrmypdf(input_pdf_path, output_pdf_path)

PDF-tekstlaagintegratie via Python API

OCRmyPDF, een open-sourcebibliotheek, biedt een krachtige oplossing voor het integreren van tekstlagen in PDF-bestanden, waardoor de toegankelijkheid en zoekmogelijkheden van documenten worden verbeterd. De bibliotheek voegt een tekstlaag met OCR-gegenereerde tekst rechtstreeks aan het PDF-document toe, waardoor de oorspronkelijke lay-out behouden blijft. Deze functie maakt zoeken in volledige tekst, kopiëren en plakken en tekstextractie mogelijk. Bij het werken met PDF-documenten is het zeer voordelig om een tekstlaag in het bestand te integreren. De tekstlaag bevat de herkende, door OCR gegenereerde tekst, waardoor de PDF doorzoekbaar is en tekst eenvoudig kan worden gekopieerd en geëxtraheerd. Deze integratie behoudt de originele documentlay-out en maakt tegelijkertijd op tekst gebaseerde bewerkingen mogelijk, waardoor de bruikbaarheid en efficiëntie van het document worden verbeterd.