1. Produtos
  2.   OCR
  3.   Python
  4.   OCRmyPDF
 
  

API Python OCR de código aberto para tornar PDFs de imagens pesquisáveis

Uma poderosa API Python OCR gratuita para automatizar o processo de OCR e facilitar a conversão de PDFs de imagens digitalizadas em documentos totalmente pesquisáveis ​​com facilidade.

A tecnologia de reconhecimento óptico de caracteres (OCR) revolucionou a forma como manuseamos e processamos documentos, permitindo-nos extrair informações valiosas de forma eficiente. Entre as muitas ferramentas de OCR disponíveis, OCRmyPDF se destaca como uma biblioteca Python versátil e poderosa que combina facilidade de uso com precisão excepcional. OCRmyPDF é uma ferramenta de linha de comando de código aberto e uma biblioteca Python projetada especificamente para adicionar OCR a arquivos PDF existentes. A biblioteca analisa cada página de um arquivo PDF para determinar o espaço de cores e a resolução (DPI) necessários para capturar todas as informações dessa página sem perder conteúdo.

A biblioteca de código aberto OCRmyPDF suporta uma ampla variedade de formatos de entrada, incluindo imagens digitalizadas, PDFs existentes e até arquivos DjVu. Opera com base na premissa de “imagem mais texto” e visa produzir resultados de alta qualidade preservando a estrutura e formatação do documento original. A biblioteca emprega técnicas de otimização de PDF para reduzir o tamanho do arquivo, mantendo a mais alta qualidade possível. Ao aplicar compactação e redução de amostragem, ele garante que os arquivos PDF resultantes habilitados para OCR sejam eficientes para armazenar e rápidos para carregar.

OCRmyPDF utiliza o robusto mecanismo de OCR Tesseract, que suporta mais de 100 idiomas. Seus algoritmos avançados garantem o reconhecimento preciso do texto, mesmo em imagens distorcidas ou de baixa qualidade. A biblioteca fornece suporte para gerar facilmente um arquivo PDF/A pesquisável a partir de um PDF normal. Também oferece algumas opções de processamento de imagem, como enquadramento, que melhora a aparência dos arquivos e a qualidade do OCR. Quando estes são usados, a camada OCR é enxertada na imagem processada. Seu conjunto abrangente de recursos, incluindo suporte para vários idiomas, otimização de PDF, controle de camada de texto e processamento automatizado, o torna uma ferramenta valiosa para empresas, pesquisadores, arquivistas e qualquer pessoa que lide com grandes volumes de documentos digitalizados.

Previous Next

Introdução ao OCRmyPDF

A maneira recomendada de instalar o OCRmyPDF é usando pip. Use o seguinte comando para uma instalação tranquila.

Instalar OCRmyPDF via pip

 pip install ocrmypdf 

Você também pode instalá-lo manualmente; baixe os arquivos da versão mais recente diretamente do repositório GitHub.

Otimização de PDF usando API Python

A biblioteca de código aberto OCRmyPDF oferece suporte a recursos muito úteis para gerenciar o tamanho e a qualidade de documentos PDF em aplicativos Python. A biblioteca emprega técnicas de otimização de PDF para reduzir o tamanho do arquivo, mantendo a mais alta qualidade possível. Ao aplicar compactação e redução de amostragem, garante que os arquivos PDF resultantes habilitados para OCR sejam eficientes para armazenar e rápidos para carregar. OCRmyPDF oferece várias opções de otimização que você pode personalizar com base em seus requisitos. Algumas opções comumente usadas incluem remover arquivos temporários, aplicar compactação JBIG2, ignorar a adição de OCR, desativar a compactação sem perdas para maximizar a redução do tamanho do arquivo e assim por diante.

Como otimizar arquivos PDF usando a API Python?

import subprocess

def optimize_pdf_with_ocrmypdf(input_pdf_path, output_pdf_path):
    try:
        # OCRmyPDF command with optimization options
        command = ['ocrmypdf', '-l', 'eng', '--pdf-renderer', 'hocr', '--optimize', '0', input_pdf_path, output_pdf_path]
        
        # Execute the OCRmyPDF command
        subprocess.run(command, check=True)
        
        print("PDF optimization complete!")
    except subprocess.CalledProcessError as e:
        print(f"OCRmyPDF error: {e}")
        
# Example usage
input_pdf_path = 'input.pdf'
output_pdf_path = 'output.pdf'

optimize_pdf_with_ocrmypdf(input_pdf_path, output_pdf_path)

Integração de camada de texto PDF via API Python

OCRmyPDF, uma biblioteca de código aberto, oferece uma solução poderosa para integração de camadas de texto em arquivos PDF, melhorando a acessibilidade dos documentos e a capacidade de pesquisa. A biblioteca adiciona uma camada de texto contendo texto gerado por OCR diretamente no documento PDF, garantindo a preservação do layout original. Este recurso permite pesquisa de texto completo, copiar e colar e extração de texto. Ao trabalhar com documentos PDF, ter uma camada de texto integrada ao arquivo é altamente vantajoso. A camada de texto contém o texto reconhecido gerado por OCR, tornando o PDF pesquisável e permitindo fácil cópia e extração de texto. Essa integração preserva o layout original do documento e permite operações baseadas em texto, melhorando a usabilidade e a eficiência do documento.

 Português