1. 製品
  2.   OCR
  3.   Python
  4.   OCRmyPDF
 
  

画像 PDF を検索可能にするオープンソース Python OCR API

OCR プロセスを自動化し、スキャンされた画像 PDF を完全に検索可能なドキュメントに簡単に変換するための強力な無料 Python OCR API。

光学式文字認識 (OCR) テクノロジーは、文書の処理方法に革命をもたらし、貴重な情報を効率的に抽出できるようになりました。 利用可能な多くの OCR ツールの中でも、OCRmyPDF は、使いやすさと優れた精度を兼ね備えた多用途で強力な Python ライブラリとして際立っています。 OCRmyPDF は、既存の PDF ファイルに OCR を追加するために特別に設計されたオープンソースのコマンドライン ツールおよび Python ライブラリです。 ライブラリは PDF ファイルの各ページを分析し、コンテンツを失わずにそのページ上のすべての情報をキャプチャするために必要なカラースペースと解像度 (DPI) を決定します。

オープン ソースの OCRmyPDF ライブラリは、スキャンされた画像、既存の PDF、さらには DjVu ファイルなど、幅広い入力形式をサポートしています。 「画像とテキスト」を前提として動作し、元のドキュメントの構造と書式を維持することで高品質の出力を生成することを目指しています。 このライブラリは PDF 最適化技術を採用し、可能な限り最高の品質を維持しながらファイル サイズを削減します。 圧縮とダウンサンプリングを適用することで、作成された OCR 対応 PDF ファイルの保存効率と読み込み速度の両方が保証されます。

OCRmyPDF は、100 以上の言語をサポートする堅牢な Tesseract OCR エンジンを利用しています。 高度なアルゴリズムにより、低品質または歪んだ画像からでもテキストを正確に認識できます。 このライブラリは、通常の PDF から検索可能な PDF/A ファイルを簡単に生成するためのサポートを提供しています。 また、ファイルの外観や OCR の品質を向上させるデスキューなどのいくつかの画像処理オプションも提供します。 これらを使用すると、代わりに OCR レイヤーが処理された画像にグラフトされます。 多言語のサポート、PDF の最適化、テキスト レイヤーの制御、自動処理などの包括的な機能セットにより、企業、研究者、アーキビストなど、大量のスキャンされたドキュメントを扱うすべての人にとって貴重なツールになります。

Previous Next

OCRmyPDF の使用を開始する

OCRmyPDF をインストールする推奨方法は、pip を使用することです。 スムーズにインストールするには、次のコマンドを使用してください。

pip 経由で OCRmyPDF をインストールします

 pip install ocrmypdf 

手動でインストールすることもできます。 最新のリリース ファイルを GitHub リポジトリから直接ダウンロードします。

Python API を使用した PDF の最適化

オープン ソースの OCRmyPDF ライブラリは、Python アプリケーション内で PDF ドキュメントのサイズと品質を管理するための非常に便利な機能のサポートを提供しています。 このライブラリは PDF 最適化技術を採用し、可能な限り最高の品質を維持しながらファイル サイズを削減します。 圧縮とダウンサンプリングを適用することで、作成された OCR 対応 PDF ファイルの保存効率と読み込み速度の両方が保証されます。 OCRmyPDF には、要件に基づいてカスタマイズできるいくつかの最適化オプションが用意されています。 一般的に使用されるオプションには、一時ファイルの削除、JBIG2 圧縮の適用、OCR の追加のスキップ、ファイル サイズを最大限に削減するための可逆圧縮の無効化などが含まれます。

Python API を使用して PDF ファイルを最適化する方法

import subprocess

def optimize_pdf_with_ocrmypdf(input_pdf_path, output_pdf_path):
    try:
        # OCRmyPDF command with optimization options
        command = ['ocrmypdf', '-l', 'eng', '--pdf-renderer', 'hocr', '--optimize', '0', input_pdf_path, output_pdf_path]
        
        # Execute the OCRmyPDF command
        subprocess.run(command, check=True)
        
        print("PDF optimization complete!")
    except subprocess.CalledProcessError as e:
        print(f"OCRmyPDF error: {e}")
        
# Example usage
input_pdf_path = 'input.pdf'
output_pdf_path = 'output.pdf'

optimize_pdf_with_ocrmypdf(input_pdf_path, output_pdf_path)

Python API を介した PDF テキスト レイヤーの統合

オープンソース ライブラリである OCRmyPDF は、テキスト レイヤーを PDF ファイルに統合し、ドキュメントのアクセシビリティと検索機能を強化するための強力なソリューションを提供します。 このライブラリは、OCR で生成されたテキストを含むテキスト レイヤーを PDF ドキュメントに直接追加し、元のレイアウトを確実に保持します。 この機能により、全文検索、コピー&ペースト、テキスト抽出が可能になります。 PDF ドキュメントを操作する場合、ファイル内にテキスト レイヤーを統合すると非常に有利です。 テキスト レイヤーには、認識された OCR で生成されたテキストが含まれているため、PDF が検索可能になり、テキストのコピーや抽出が容易になります。 この統合により、元のドキュメントのレイアウトが維持されながらテキストベースの操作が可能になり、ドキュメントの使いやすさと効率が向上します。

 日本