API Python OCR de código abierto para hacer que los archivos PDF de imágenes puedan buscarse

Una potente API de OCR de Python gratuita que automatiza el proceso de OCR y facilita la conversión de archivos PDF de imágenes escaneadas en documentos con capacidad de búsqueda completa con facilidad.

La tecnología de reconocimiento óptico de caracteres (OCR) ha revolucionado la forma en que manejamos y procesamos documentos, permitiéndonos extraer información valiosa de manera eficiente. Entre las muchas herramientas de OCR disponibles, OCRmyPDF se destaca como una biblioteca Python versátil y potente que combina facilidad de uso con una precisión excepcional. OCRmyPDF es una herramienta de línea de comandos de código abierto y una biblioteca de Python diseñada específicamente para agregar OCR a archivos PDF existentes. La biblioteca analiza cada página de un archivo PDF para determinar el espacio de color y la resolución (DPI) necesarios para capturar toda la información de esa página sin perder contenido.

La biblioteca OCRmyPDF de código abierto admite una amplia gama de formatos de entrada, incluidas imágenes escaneadas, archivos PDF existentes e incluso archivos DjVu. Opera bajo la premisa de "imagen más texto" y tiene como objetivo producir resultados de alta calidad preservando la estructura y el formato del documento original. La biblioteca emplea técnicas de optimización de PDF para reducir el tamaño del archivo manteniendo la mayor calidad posible. Al aplicar compresión y reducción de muestreo, se garantiza que los archivos PDF resultantes con OCR habilitado sean eficientes para almacenar y rápidos para cargar.

OCRmyPDF utiliza el robusto motor Tesseract OCR, que admite más de 100 idiomas. Sus algoritmos avanzados garantizan un reconocimiento preciso del texto, incluso de imágenes distorsionadas o de baja calidad. La biblioteca ha brindado soporte para generar fácilmente un archivo PDF/A con capacidad de búsqueda a partir de un PDF normal. También proporciona algunas opciones de procesamiento de imágenes, como alinear, que mejora la apariencia de los archivos y la calidad del OCR. Cuando se utilizan, la capa OCR se injerta en la imagen procesada. Su completo conjunto de funciones, que incluye soporte para múltiples idiomas, optimización de PDF, control de capas de texto y procesamiento automatizado, lo convierte en una herramienta valiosa para empresas, investigadores, archiveros y cualquiera que maneje grandes volúmenes de documentos escaneados.

De un vistazo

Una descripción general de las funciones de OCRmyPDF.

Descripción de las características

Realizar OCR
Agregar capacidades de OCR
Reconocer texto de imagen
Convertir imágenes de texto
Texto de fuente reconocido
Buscar PDF
Otros idiomas
Crear aplicaciones de OCR
Guardar en el navegador
Extraer texto
Soporte multiproceso

OCRmyPDF

OCRmyPDF admite los formatos de archivos de imágenes más populares que se enumeran a continuación.

Lector

PNG, JPEG, BMP, TIFF, TGA, DICOM

Escritor

PNG, JPEG, BMP, TIFF

OCRmyPDF

Independencia de plataforma

OCRmyPDF puede funcionar con Python 2.7 y superior.

Python 2.7 y superiores.

OCRmyPDF

Introducción a OCRmyPDF

La forma recomendada de instalar OCRmyPDF es utilizando pip. Utilice el siguiente comando para una instalación sin problemas.

Instalar OCRmyPDF mediante pip

 pip install ocrmypdf

También puedes instalarlo manualmente; descargue los archivos de la última versión directamente desde el repositorio GitHub.

Optimización de PDF usando la API de Python

La biblioteca OCRmyPDF de código abierto ha brindado soporte y funciones muy útiles para administrar el tamaño y la calidad de los documentos PDF dentro de las aplicaciones Python. La biblioteca emplea técnicas de optimización de PDF para reducir el tamaño del archivo manteniendo la mayor calidad posible. Al aplicar compresión y reducción de muestreo, se garantiza que los archivos PDF habilitados para OCR resultantes sean eficientes para almacenar y rápidos para cargar. OCRmyPDF proporciona varias opciones de optimización que puede personalizar según sus requisitos. Algunas opciones comúnmente utilizadas incluyen eliminar archivos temporales, aplicar compresión JBIG2, omitir agregar OCR, deshabilitar la compresión sin pérdidas para maximizar la reducción del tamaño del archivo, etc.

¿Cómo optimizar archivos PDF usando la API de Python?

import subprocess

def optimize_pdf_with_ocrmypdf(input_pdf_path, output_pdf_path):
    try:
        # OCRmyPDF command with optimization options
        command = ['ocrmypdf', '-l', 'eng', '--pdf-renderer', 'hocr', '--optimize', '0', input_pdf_path, output_pdf_path]
        
        # Execute the OCRmyPDF command
        subprocess.run(command, check=True)
        
        print("PDF optimization complete!")
    except subprocess.CalledProcessError as e:
        print(f"OCRmyPDF error: {e}")
        
# Example usage
input_pdf_path = 'input.pdf'
output_pdf_path = 'output.pdf'

optimize_pdf_with_ocrmypdf(input_pdf_path, output_pdf_path)

Integración de capas de texto PDF a través de la API de Python

OCRmyPDF, una biblioteca de código abierto, proporciona una potente solución para integrar capas de texto en archivos PDF, mejorando la accesibilidad de los documentos y la capacidad de búsqueda. La biblioteca agrega una capa de texto que contiene texto generado por OCR directamente al documento PDF, lo que garantiza la preservación del diseño original. Esta función permite buscar, copiar y pegar texto completo y extraer texto. Cuando se trabaja con documentos PDF, tener una capa de texto integrada dentro del archivo es una gran ventaja. La capa de texto contiene el texto generado por OCR reconocido, lo que permite realizar búsquedas en el PDF y permite copiar y extraer texto fácilmente. Esta integración preserva el diseño del documento original al tiempo que permite operaciones basadas en texto, lo que mejora la usabilidad y eficiencia del documento.