1. Produkte
  2.   OCR
  3.   Python
  4.   OCRmyPDF
 
  

Open-Source-Python-OCR-API, um Bild-PDFs durchsuchbar zu machen

Eine leistungsstarke kostenlose Python-OCR-API zur Automatisierung des OCR-Prozesses und zur einfachen Konvertierung gescannter Bild-PDFs in vollständig durchsuchbare Dokumente.

Die OCR-Technologie (Optical Character Recognition) hat die Art und Weise, wie wir Dokumente handhaben und verarbeiten, revolutioniert und es uns ermöglicht, wertvolle Informationen effizient zu extrahieren. Unter den vielen verfügbaren OCR-Tools sticht OCRmyPDF als vielseitige und leistungsstarke Python-Bibliothek hervor, die Benutzerfreundlichkeit mit außergewöhnlicher Genauigkeit kombiniert. OCRmyPDF ist ein Open-Source-Befehlszeilentool und eine Python-Bibliothek, die speziell für das Hinzufügen von OCR zu vorhandenen PDF-Dateien entwickelt wurde. Die Bibliothek analysiert jede Seite einer PDF-Datei, um den Farbraum und die Auflösung (DPI) zu bestimmen, die erforderlich sind, um alle Informationen auf dieser Seite ohne Inhaltsverlust zu erfassen.

Die Open-Source-OCRmyPDF-Bibliothek unterstützt eine Vielzahl von Eingabeformaten, darunter gescannte Bilder, vorhandene PDFs und sogar DjVu-Dateien. Es basiert auf dem Prinzip „Bild plus Text“ und zielt darauf ab, eine qualitativ hochwertige Ausgabe zu erzeugen, indem die Struktur und Formatierung des Originaldokuments erhalten bleibt. Die Bibliothek nutzt PDF-Optimierungstechniken, um die Dateigröße zu reduzieren und gleichzeitig die höchstmögliche Qualität beizubehalten. Durch die Anwendung von Komprimierung und Downsampling wird sichergestellt, dass die resultierenden OCR-fähigen PDF-Dateien sowohl effizient zu speichern als auch schnell zu laden sind.

OCRmyPDF nutzt die robuste Tesseract OCR-Engine, die über 100 Sprachen unterstützt. Seine fortschrittlichen Algorithmen gewährleisten eine genaue Texterkennung, selbst bei Bildern mit geringer Qualität oder verzerrten Bildern. Die Bibliothek bietet Unterstützung für die einfache Generierung einer durchsuchbaren PDF/A-Datei aus einer regulären PDF-Datei. Es bietet auch einige Bildverarbeitungsoptionen, wie z. B. Geradeausrichtung, die das Erscheinungsbild von Dateien und die Qualität der OCR verbessert. Wenn diese verwendet werden, wird die OCR-Schicht stattdessen auf das verarbeitete Bild aufgepfropft. Sein umfassender Funktionsumfang, einschließlich der Unterstützung mehrerer Sprachen, PDF-Optimierung, Textebenenkontrolle und automatisierter Verarbeitung, macht es zu einem wertvollen Werkzeug für Unternehmen, Forscher, Archivare und alle, die mit großen Mengen gescannter Dokumente arbeiten.

Previous Next

Erste Schritte mit OCRmyPDF

Die empfohlene Methode zur Installation von OCRmyPDF ist die Verwendung von pip. Für eine reibungslose Installation verwenden Sie bitte den folgenden Befehl.

Installieren Sie OCRmyPDF über pip

 pip install ocrmypdf 

Sie können es auch manuell installieren; Laden Sie die neuesten Versionsdateien direkt aus dem GitHub-Repository herunter.

PDF-Optimierung mithilfe der Python-API

Die Open-Source-Bibliothek OCRmyPDF bietet Unterstützung für sehr nützliche Funktionen zur Verwaltung der Größe und Qualität von PDF-Dokumenten in Python-Anwendungen. Die Bibliothek nutzt PDF-Optimierungstechniken, um die Dateigröße zu reduzieren und gleichzeitig die höchstmögliche Qualität beizubehalten. Durch die Anwendung von Komprimierung und Downsampling wird sichergestellt, dass die resultierenden OCR-fähigen PDF-Dateien sowohl effizient zu speichern als auch schnell zu laden sind. OCRmyPDF bietet mehrere Optimierungsoptionen, die Sie je nach Ihren Anforderungen anpassen können. Zu den häufig verwendeten Optionen gehören das Entfernen temporärer Dateien, das Anwenden der JBIG2-Komprimierung, das Überspringen des Hinzufügens der OCR, das Deaktivieren der verlustfreien Komprimierung zur Maximierung der Dateigrößenreduzierung und so weiter.

Wie optimiert man PDF-Dateien mithilfe der Python-API?

import subprocess

def optimize_pdf_with_ocrmypdf(input_pdf_path, output_pdf_path):
    try:
        # OCRmyPDF command with optimization options
        command = ['ocrmypdf', '-l', 'eng', '--pdf-renderer', 'hocr', '--optimize', '0', input_pdf_path, output_pdf_path]
        
        # Execute the OCRmyPDF command
        subprocess.run(command, check=True)
        
        print("PDF optimization complete!")
    except subprocess.CalledProcessError as e:
        print(f"OCRmyPDF error: {e}")
        
# Example usage
input_pdf_path = 'input.pdf'
output_pdf_path = 'output.pdf'

optimize_pdf_with_ocrmypdf(input_pdf_path, output_pdf_path)

PDF-Textebenenintegration über Python-API

OCRmyPDF, eine Open-Source-Bibliothek, bietet eine leistungsstarke Lösung für die Integration von Textebenen in PDF-Dateien und verbessert so die Zugänglichkeit und Suchfähigkeit von Dokumenten. Die Bibliothek fügt dem PDF-Dokument direkt eine Textebene mit OCR-generiertem Text hinzu und stellt so sicher, dass das ursprüngliche Layout erhalten bleibt. Diese Funktion ermöglicht die Volltextsuche, das Einfügen von Kopien und die Textextraktion. Bei der Arbeit mit PDF-Dokumenten ist die Integration einer Textebene in die Datei von großem Vorteil. Die Textebene enthält den erkannten OCR-generierten Text, wodurch das PDF durchsuchbar wird und ein einfaches Kopieren und Extrahieren von Text ermöglicht wird. Diese Integration bewahrt das ursprüngliche Dokumentlayout und ermöglicht gleichzeitig textbasierte Vorgänge, wodurch die Benutzerfreundlichkeit und Effizienz des Dokuments verbessert wird.

 Deutsch