通过 Python 库开发使用 PDF 的应用程序
开源 Python API 能够拆分、合并、裁剪和转换 PDF 文件的页面,向 PDF 添加自定义数据和密码。
PyPDF2 入门
PyPDF2 不是 Python 标准库的一部分,因此您需要自己安装它。这样做的首选方法是使用 pip。
通过 pip 安装 PyPDF2
python -m pip install pypdf2
通过 Python 从 PDF 中提取文本
PyPDF2 库提供了通过 Python 以编程方式从 PDF 文件中提取文本的功能。从 PDF 文件中检索数据并不容易,因为 PDF 存储信息的方式使其难以实现。 PyPDF2 通过为开发人员提供易于使用的内置函数来检索信息,使他们的工作变得轻松。他们可以使用页面对象上的 extractText() 方法来获取页面的文本内容。
通过 Python 从 PDF 中提取文本
// extract text from a PDF
from PyPDF2 import PdfReader
reader = PdfReader("example.pdf")
page = reader.pages[0]
print(page.extract_text())
通过 Python 读取 PDF 文件
PyPDF2 库提供了通过 Python 以编程方式从 PDF 文件中提取文本的功能。从 PDF 文件中检索数据并不容易,因为 PDF 存储信息的方式使其难以实现。 PyPDF2 通过为开发人员提供易于使用的内置函数来检索信息,使他们的工作变得轻松。他们可以使用页面对象上的 extractText() 方法来获取页面的文本内容。
通过 Python 读取 PDF 文件
// Reading text from a PDF
from PyPDF2 import PdfReader
reader = PdfReader("example.pdf")
for page in reader.pages:
if "/Annots" in page:
for annot in page["/Annots"]:
subtype = annot.get_object()["/Subtype"]
if subtype == "/Text":
print(annot.get_object()["/Contents"])
合并或拆分 PDF 文档
您是否曾经遇到过需要将两个或多个 PDF 文件合并到一个文档中的情况?该组织通常需要将多个 PDF 文件合并到一个文档中。 PyPDF2 库提供了将 PDF 文件与几行 Python 代码相结合的能力。开发人员还可以根据需要轻松地将大型 PDF 文档拆分为较小的文档。开发人员可以轻松提取 PDF 书籍的特定部分或将其拆分为多个 PDF
通过 Python 合并 PDF 文件
// Merge PDF files
from PyPDF2 import PdfMerger
merger = PdfMerger()
for pdf in ["file1.pdf", "file2.pdf", "file3.pdf"]:
merger.append(pdf)
merger.write("merged-pdf.pdf")
merger.close()
从 PDF 文件中提取元数据
PyPDF2 库包含使用几个 Python 命令从 PDF 文档中提取元数据的功能。您可以轻松获取有关作者、创建者应用程序、页数、文档标题和创建日期等信息。您可以轻松提取 PDF 文档的元数据并根据需要使用它。
通过 Python 从 PDF 中提取元数据
// Reading PDF Metadata
from PyPDF2 import PdfReader
reader = PdfReader("example.pdf")
meta = reader.metadata
print(len(reader.pages))
# All of the following could be None!
print(meta.author)
print(meta.creator)
print(meta.producer)
print(meta.subject)
print(meta.title)