API Python OCR Open Source pour rendre les images PDF consultables

Une puissante API Python OCR gratuite pour automatiser le processus OCR et faciliter la conversion des images PDF numérisées en documents entièrement consultables en toute simplicité.

La technologie de reconnaissance optique de caractères (OCR) a révolutionné la façon dont nous traitons et traitons les documents, nous permettant d'extraire efficacement des informations précieuses. Parmi les nombreux outils OCR disponibles, OCRmyPDF se distingue comme une bibliothèque Python polyvalente et puissante qui allie facilité d'utilisation et précision exceptionnelle. OCRmyPDF est un outil de ligne de commande open source et une bibliothèque Python spécialement conçus pour ajouter l'OCR aux fichiers PDF existants. La bibliothèque analyse chaque page d'un fichier PDF pour déterminer l'espace colorimétrique et la résolution (DPI) nécessaires pour capturer toutes les informations de cette page sans perdre le contenu.

La bibliothèque open source OCRmyPDF prend en charge un large éventail de formats d'entrée, notamment les images numérisées, les PDF existants et même les fichiers DjVu. Il fonctionne sur le principe « image plus texte » et vise à produire une sortie de haute qualité en préservant la structure et le formatage du document original. La bibliothèque utilise des techniques d'optimisation PDF pour réduire la taille des fichiers tout en conservant la meilleure qualité possible. En appliquant la compression et le sous-échantillonnage, il garantit que les fichiers PDF compatibles OCR résultants sont à la fois efficaces à stocker et rapides à charger.

OCRmyPDF utilise le puissant moteur OCR Tesseract, qui prend en charge plus de 100 langues. Ses algorithmes avancés garantissent une reconnaissance précise du texte, même à partir d'images de mauvaise qualité ou déformées. La bibliothèque permet de générer facilement un fichier PDF/A consultable à partir d'un PDF standard. Il fournit également certaines options de traitement d'image, comme le redressement, qui améliore l'apparence des fichiers et la qualité de l'OCR. Lorsque ceux-ci sont utilisés, la couche OCR est greffée sur l’image traitée. Son ensemble complet de fonctionnalités, notamment la prise en charge de plusieurs langues, l'optimisation des PDF, le contrôle des couches de texte et le traitement automatisé, en fait un outil précieux pour les entreprises, les chercheurs, les archivistes et toute personne traitant de gros volumes de documents numérisés.

En un coup d'oeil

Un aperçu des fonctionnalités d'OCRmyPDF.

Présentation des fonctionnalités

Effectuer l'OCR
Ajouter des fonctionnalités OCR
Reconnaître le texte de l'image
Convertir des images de texte
Texte de police reconnu
Rechercher un PDF
Autres langues
Créer des applications OCR
Enregistrer dans le navigateur
Extraire le texte
Support multithread

OCRmyPDF

OCRmyPDF prend en charge les formats de fichiers image populaires répertoriés ci-dessous.

Lecteur

PNG, JPEG, BMP, TIFF, TGA, DICOM

Écrivain

PNG, JPEG, BMP, TIFF

OCRmyPDF

Indépendance de la plateforme

OCRmyPDF peut fonctionner avec Python 2.7 et supérieur.

Python 2.7 et versions ultérieures.

OCRmyPDF

Premiers pas avec OCRmyPDF

La méthode recommandée pour installer OCRmyPDF consiste à utiliser pip. Veuillez utiliser la commande suivante pour une installation fluide.

Installer OCRmyPDF via pip

 pip install ocrmypdf

Vous pouvez également l'installer manuellement ; téléchargez les fichiers de la dernière version directement depuis le référentiel GitHub.

Optimisation PDF à l'aide de l'API Python

La bibliothèque open source OCRmyPDF prend en charge des fonctionnalités très utiles pour gérer la taille et la qualité des documents PDF dans les applications Python. La bibliothèque utilise des techniques d'optimisation PDF pour réduire la taille des fichiers tout en conservant la meilleure qualité possible. En appliquant la compression et le sous-échantillonnage, il garantit que les fichiers PDF compatibles OCR résultants sont à la fois efficaces à stocker et rapides à charger. OCRmyPDF propose plusieurs options d'optimisation que vous pouvez personnaliser en fonction de vos besoins. Certaines options couramment utilisées incluent la suppression des fichiers temporaires, l'application de la compression JBIG2, l'omission de l'ajout de l'OCR, la désactivation de la compression sans perte pour maximiser la réduction de la taille du fichier, etc.

Comment optimiser les fichiers PDF à l'aide de l'API Python ?

import subprocess

def optimize_pdf_with_ocrmypdf(input_pdf_path, output_pdf_path):
    try:
        # OCRmyPDF command with optimization options
        command = ['ocrmypdf', '-l', 'eng', '--pdf-renderer', 'hocr', '--optimize', '0', input_pdf_path, output_pdf_path]
        
        # Execute the OCRmyPDF command
        subprocess.run(command, check=True)
        
        print("PDF optimization complete!")
    except subprocess.CalledProcessError as e:
        print(f"OCRmyPDF error: {e}")
        
# Example usage
input_pdf_path = 'input.pdf'
output_pdf_path = 'output.pdf'

optimize_pdf_with_ocrmypdf(input_pdf_path, output_pdf_path)

Intégration de la couche de texte PDF via l'API Python

OCRmyPDF, une bibliothèque open source, fournit une solution puissante pour intégrer des calques de texte dans des fichiers PDF, améliorant ainsi l'accessibilité et la capacité de recherche des documents. La bibliothèque ajoute un calque de texte contenant le texte généré par OCR directement sur le document PDF, garantissant ainsi la préservation de la mise en page originale. Cette fonctionnalité permet la recherche en texte intégral, le copier-coller et l'extraction de texte. Lorsque vous travaillez avec des documents PDF, il est très avantageux d'avoir une couche de texte intégrée au fichier. La couche de texte contient le texte généré par OCR reconnu, ce qui rend le PDF consultable et permet une copie et une extraction faciles du texte. Cette intégration préserve la mise en page originale du document tout en permettant des opérations basées sur du texte, améliorant ainsi la convivialité et l'efficacité du document.