1. 製品
  2.   PDF
  3.   Python
  4.   PDFMiner
 
  

無料の Python ライブラリを介して PDF から情報を抽出する

開発者が PDF ドキュメントから情報を抽出し、PDF を他の形式に変換し、自動レイアウト分析を実行できる無料の Python API。

PDFMiner は、他の依存関係なしに PDF ファイルを処理するための非常に使いやすいオープン ソースの Python ライブラリです。 PDFMine.six コミュニティが管理する元の PDFMiner ライブラリのフォーク。このライブラリは、PDF ドキュメントから情報を抽出するための非常に強力な機能を提供しています。非プログラマ向けのコマンド ユーティリティと、プログラマ向けの API インターフェイスを提供します。強力な PDF コンバーターもライブラリの一部であり、ユーザーが PDF ファイルを HTML などの他のテキスト形式に変換するのに役立ちます。

PDFMiner は、プログラムでレンダリングされた PDF ファイルからすべてのテキストを簡単に抽出できる純粋な Python ライブラリです。優れた機能は、各テキスト セグメントの対応する位置、フォント名とサイズ、および書き込み方向 (水平または垂直) も抽出することです。 PDF-1.7 仕様をサポートし、パスワードで保護された PDF ドキュメントの抽出をサポートします。このライブラリには、PDF ドキュメントの解析、分析、変換、HTML または hOCR としてのコンテンツの抽出、縦書きスクリプトのサポート、RC4 および AES 暗号化のサポート、目次の抽出、タグ付きコンテンツの抽出、自動レイアウトなど、他のいくつかの重要な機能が含まれています。分析など。

Previous Next

PDFMiner を使い始める

PDFMiner には Python 3.6 以降が必要です。 pip を使用して PDFMiner をインストールできます。以下のコマンドでインストールしてください。

pip経由でPDFMinerをインストール

 pip install pdfminer 

コンパイル済みの共有ライブラリを GitHub リポジトリからダウンロードしてインストールすることもできます。

Python経由でPDFファイルからテキストを抽出

オープン ソースの Pdfminer.six ライブラリを使用すると、ソフトウェア開発者は、ほんの数行の Python コードで PDF ファイルからテキストを抽出できます。このライブラリは、テキスト データの取得と分析に重点を置いており、その後、PDF のソース コードから直接ページからテキストを抽出します。このライブラリにより、開発者は PDF ファイルから画像 (JPG、JBIG2、ビットマップ) を抽出することもできます。個々の文字のフォント名またはサイズを抽出することもできます。次の例は、PDF ファイルからテキストを抽出して画面に印刷する方法を示しています。

Python で PDF ドキュメントを開いて操作する

 from pdfminer.high_level import extract_text
# Extract text from a pdf.
text = extract_text('example.pdf')
# Extract iterable of LTPage objects.
pages = extract_pages('example.pdf')
print(text)

Python API 経由で PDF ファイルを hOCR に変換する

hOCR は、光学式文字認識 (OCR) から取得した書式付きテキストのデータ表現のオープン スタンダードです。無料の Pdfminer.six ライブラリを使用すると、ソフトウェア開発者は、ほんの数行の Python コードで PDF ファイルを hOCR 形式に変換できます。このライブラリは非常に扱いやすく、明示的なテキスト情報を持っている PDF から明示的なテキスト情報を抽出し、それを使用して基本的な hOCR 表現を生成できます。

Python経由でPDFファイルをテキストに変換

このライブラリには、基本的な PDF 処理を超えて拡張できる豊富な機能セットと機能が含まれています。オープン ソースの Pdfminer.six ライブラリを使用すると、Python 開発者は、いくつかの簡単なコマンドだけで PDF ドキュメントをテキストに変換できます。まず、PDF ファイルとテキスト ファイルへのパスを指定する必要があります。ドキュメントがパスワードで保護されている場合は、パスワードも入力する必要があります。次のコード例は、目標を達成するために使用できます。ファイル名を指定すると、PDF で文字列を返すだけで、ファイルに簡単に保存できます。

Python API を介して PDF ファイルをテキスト形式に変換する

 from pdfminer.pdfinterp import PDFResourceManager, PDFPageInterpreter
from pdfminer.converter import TextConverter
from pdfminer.layout import LAParams
from pdfminer.pdfpage import PDFPage
from io import StringIO
def convert_pdf_to_txt(path):
    rsrcmgr = PDFResourceManager()
    retstr = StringIO()
    codec = 'utf-8'
    laparams = LAParams()
    device = TextConverter(rsrcmgr, retstr, codec=codec, laparams=laparams)
    fp = open(path, 'rb')
    interpreter = PDFPageInterpreter(rsrcmgr, device)
    password = ""
    maxpages = 0
    caching = True
    pagenos=set()
    for page in PDFPage.get_pages(fp, pagenos, maxpages=maxpages, password=password,caching=caching, check_extractable=True):
        interpreter.process_page(page)
    text = retstr.getvalue()
    fp.close()
    device.close()
    retstr.close()
    return text
 日本