1. Продукти
  2.   OCR
  3.   Python
  4.   OCRmyPDF
 
  

Open Source Python OCR-API macht Bild-PDFs durchsuchbar

Eine leistungsstarke, kostenlose Python-OCR-API zur Automatisierung des OCR-Prozesses und zur einfachen Konvertierung gescannter PDF-Bilder in vollständig durchsuchbare Dokumente.

Die Technologie zur optischen Zeichenerkennung (OCR) hat die Art und Weise, wie wir Dokumente handhaben und verarbeiten, revolutioniert und ermöglicht es uns, wertvolle Informationen effizient zu extrahieren. Unter den vielen verfügbaren OCR-Tools sticht OCRmyPDF als vielseitige und leistungsstarke Python-Bibliothek hervor, die Benutzerfreundlichkeit mit außergewöhnlicher Genauigkeit kombiniert. OCRmyPDF ist ein Open-Source-Befehlszeilentool und eine Python-Bibliothek, die speziell für das Hinzufügen von OCR zu vorhandenen PDF-Dateien entwickelt wurde. Die Bibliothek analysiert jede Seite einer PDF-Datei, um den Farbraum und die Auflösung (DPI) zu bestimmen, die erforderlich sind, um alle Informationen auf dieser Seite zu erfassen, ohne Inhalte zu verlieren.

Die Open-Source-Bibliothek OCRmyPDF unterstützt eine breite Palette von Eingabeformaten, darunter gescannte Bilder, vorhandene PDFs und sogar DjVu-Dateien. Sie arbeitet nach dem Prinzip „Bild plus Text“ und zielt darauf ab, qualitativ hochwertige Ergebnisse zu erzielen, indem die Struktur und Formatierung des Originaldokuments erhalten bleibt. Die Bibliothek verwendet PDF-Optimierungstechniken, um die Dateigröße zu reduzieren und gleichzeitig die höchstmögliche Qualität beizubehalten. Durch Komprimierung und Downsampling wird sichergestellt, dass die resultierenden OCR-fähigen PDF-Dateien sowohl effizient gespeichert als auch schnell geladen werden können.

OCRmyPDF verwendet die robuste Tesseract OCR-Engine, die über 100 Sprachen unterstützt. Seine fortschrittlichen Algorithmen gewährleisten eine genaue Texterkennung, selbst bei Bildern von geringer Qualität oder verzerrten Bildern. Die Bibliothek unterstützt die einfache Generierung einer durchsuchbaren PDF/A-Datei aus einem normalen PDF. Sie bietet auch einige Bildverarbeitungsoptionen, wie z. B. Entzerrung, die das Erscheinungsbild von Dateien und die Qualität der OCR verbessern. Wenn diese verwendet werden, wird die OCR-Ebene stattdessen auf das verarbeitete Bild aufgepfropft. Sein umfassender Funktionsumfang, einschließlich Unterstützung für mehrere Sprachen, PDF-Optimierung, Textebenensteuerung und automatisierter Verarbeitung, macht es zu einem wertvollen Werkzeug für Unternehmen, Forscher, Archivare und alle, die mit großen Mengen gescannter Dokumente zu tun haben.

Previous Next

Erste Schritte mit OCRmyPDF

Die empfohlene Methode zur Installation von OCRmyPDF ist die Verwendung von pip. Bitte verwenden Sie den folgenden Befehl für eine reibungslose Installation.

OCRmyPDF über pip installieren

 pip install ocrmypdf 

Sie können es auch manuell installieren; laden Sie die neuesten Versionsdateien direkt vom GitHub-Repository herunter.

PDF-Optimierung mit Python-API

Die Open-Source-Bibliothek OCRmyPDF unterstützt sehr nützliche Funktionen zur Verwaltung der Größe und Qualität von PDF-Dokumenten in Python-Anwendungen. Die Bibliothek verwendet PDF-Optimierungstechniken, um die Dateigröße zu reduzieren und gleichzeitig die höchstmögliche Qualität beizubehalten. Durch die Anwendung von Komprimierung und Downsampling wird sichergestellt, dass die resultierenden OCR-fähigen PDF-Dateien sowohl effizient gespeichert als auch schnell geladen werden können. OCRmyPDF bietet mehrere Optimierungsoptionen, die Sie entsprechend Ihren Anforderungen anpassen können. Einige häufig verwendete Optionen sind das Entfernen temporärer Dateien, die Anwendung der JBIG2-Komprimierung, das Überspringen des Hinzufügens von OCR, das Deaktivieren der verlustfreien Komprimierung zur Maximierung der Dateigrößenreduzierung und so weiter.

Wie optimiere ich PDF-Dateien mithilfe der Python-API?

import subprocess

def optimize_pdf_with_ocrmypdf(input_pdf_path, output_pdf_path):
    try:
        # OCRmyPDF command with optimization options
        command = ['ocrmypdf', '-l', 'eng', '--pdf-renderer', 'hocr', '--optimize', '0', input_pdf_path, output_pdf_path]
        
        # Execute the OCRmyPDF command
        subprocess.run(command, check=True)
        
        print("PDF optimization complete!")
    except subprocess.CalledProcessError as e:
        print(f"OCRmyPDF error: {e}")
        
# Example usage
input_pdf_path = 'input.pdf'
output_pdf_path = 'output.pdf'

optimize_pdf_with_ocrmypdf(input_pdf_path, output_pdf_path)

Integration von PDF-Textebenen über Python-API

OCRmyPDF, eine Open-Source-Bibliothek, bietet eine leistungsstarke Lösung zum Integrieren von Textebenen in PDF-Dateien und verbessert so die Zugänglichkeit und Durchsuchbarkeit von Dokumenten. Die Bibliothek fügt eine Textebene mit OCR-generiertem Text direkt zum PDF-Dokument hinzu und stellt so sicher, dass das ursprüngliche Layout erhalten bleibt. Diese Funktion ermöglicht Volltextsuche, Kopieren und Einfügen sowie Textextraktion. Beim Arbeiten mit PDF-Dokumenten ist es äußerst vorteilhaft, eine in die Datei integrierte Textebene zu haben. Die Textebene enthält den erkannten OCR-generierten Text, wodurch das PDF durchsuchbar wird und Text einfach kopiert und extrahiert werden kann. Diese Integration bewahrt das ursprüngliche Dokumentlayout und ermöglicht gleichzeitig textbasierte Vorgänge, wodurch die Benutzerfreundlichkeit und Effizienz des Dokuments verbessert wird.

 Українська