Python ライブラリを介して PDF を操作するアプリを開発する

PDF ファイルのページを分割、結合、切り抜き、変換し、カスタムデータとパスワードを PDF に追加できるオープンソースの Python API。

PyPDF2 は、外部依存関係なしに Python アプリケーション内で PDF ファイルを操作する機能を提供する、オープンソースの純粋な Python ライブラリです。このライブラリには、複数の PDF ファイルのマージ、PDF ファイルのコンテンツの抽出、角度による PDF ファイルのページの回転、PDF ページのスケーリング、PDF ファイルのページの変換、PDF ページからの画像の抽出など、多数の重要な PDF 機能のサポートが含まれています。もっとたくさん。

オープンソースプログラミングライブラリ PyPDF2 は非常に使いやすく、ソースコードは十分に文書化されていて理解しやすいものです。このライブラリを使用すると、開発者は、ページ数、作成者、作成者、作成日時、最終更新日時などの PDF ファイルのメタデータを読み取って抽出できます。ライブラリは、数行の Python コードで PDF ファイルの暗号化と復号化もサポートしています。

概要

PyPDF2 の機能の概要。

機能の概要

PDFを作成
作物
PDF ページの変換
PDF の分割
PDF をマージする
ハイパーリンクの埋め込み
円を挿入する
カスタムデータを追加する
シェイプを追加する
ユニコードのサポート
フォントの埋め込み
PDFを暗号化
画像の埋め込み
パスワードを追加する
メタデータ

PyPDF2

PyPDF2 は、エクスポート用の業界標準形式だけでなく、PDF ファイル形式もサポートしています。

読者

ライター

TXT, HTML

PyPDF2

プラットフォーム非依存

PyPDF2 は Python 2.6 以降でテストされています。

Python 2.6 以降

PyPDF2

PyPDF2 を使い始める

PyPDF2 は Python 標準ライブラリの一部として提供されていないため、自分でインストールする必要があります。そのための推奨される方法は、pip を使用することです。

pip 経由で PyPDF2 をインストールする

 python -m pip install pypdf2

Python 経由で PDF からテキストを抽出する

PyPDF2 ライブラリは、Python を介して PDF ファイルからプログラムでテキストを抽出する機能を提供します。 PDF ファイルからデータを取得するのは簡単ではありません。なぜなら、PDF が情報を保存する方法では取得が困難だからです。 PyPDF2 は、情報を取得するための使いやすい組み込み関数を提供することで、開発者の仕事を容易にします。ページオブジェクトで extractText() メソッドを使用して、ページのテキストコンテンツを取得できます。

Python を介して PDF からテキストを抽出する

 // extract text from a PDF
  from PyPDF2 import PdfReader
  reader = PdfReader("example.pdf")
  page = reader.pages[0]
  print(page.extract_text())

Python 経由で PDF ファイルを読み取る

Python経由でPDFファイルを読む

 // Reading text from a PDF
    from PyPDF2 import PdfReader
  reader = PdfReader("example.pdf")
  for page in reader.pages:
    if "/Annots" in page:
      for annot in page["/Annots"]:
        subtype = annot.get_object()["/Subtype"]
        if subtype == "/Text":
          print(annot.get_object()["/Contents"])

PDF ドキュメントの結合または分割

2 つ以上の PDF ファイルを 1 つのドキュメントにマージする必要がある状況に陥ったことはありませんか?多くの場合、組織では、複数の PDF ファイルを 1 つのドキュメントにマージする必要があります。 PyPDF2 ライブラリは、PDF ファイルを数行の Python コードと結合する機能を提供します。開発者は、必要に応じて大きな PDF ドキュメントを小さなドキュメントに簡単に分割することもできます。開発者は PDF ブックの特定の部分を簡単に抽出したり、複数の PDF に分割したりできます

Python 経由で PDF ファイルをマージする

 // Merge PDF files 
  from PyPDF2 import PdfMerger
  merger = PdfMerger()
  for pdf in ["file1.pdf", "file2.pdf", "file3.pdf"]:
    merger.append(pdf)
  merger.write("merged-pdf.pdf")
  merger.close()

PDF ファイルからメタデータを抽出する

PyPDF2 ライブラリには、いくつかの Python コマンドを使用して PDF ドキュメントからメタデータを抽出する機能が含まれています。作成者、作成者アプリ、ページ数、文書名、作成日などの情報を簡単に取得できます。PDF文書のメタデータを簡単に抽出して、用途に合わせて利用できます。

Python を介して PDF からメタデータを抽出する

 // Reading PDF Metadata 
  from PyPDF2 import PdfReader
reader = PdfReader("example.pdf")
meta = reader.metadata
print(len(reader.pages))
# All of the following could be None!
print(meta.author)
print(meta.creator)
print(meta.producer)
print(meta.subject)
print(meta.title)

Python ライブラリを介して PDF を操作するアプリを開発する

PDF ファイルのページを分割、結合、切り抜き、変換し、カスタム データとパスワードを PDF に追加できるオープン ソースの Python API。

概要

プラットフォーム非依存

PyPDF2 を使い始める

pip 経由で PyPDF2 をインストールする

Python 経由で PDF からテキストを抽出する

Python を介して PDF からテキストを抽出する

Python 経由で PDF ファイルを読み取る

Python経由でPDFファイルを読む

PDF ドキュメントの結合または分割

Python 経由で PDF ファイルをマージする

PDF ファイルからメタデータを抽出する

Python を介して PDF からメタデータを抽出する

PDF ファイルのページを分割、結合、切り抜き、変換し、カスタムデータとパスワードを PDF に追加できるオープンソースの Python API。