1. 产品
  2.   PDF格式
  3.   Python
  4.   Pypdf2
 
  

通过 Python 库开发使用 PDF 的应用程序

开源 Python API 能够拆分、合并、裁剪和转换 PDF 文件的页面,向 PDF 添加自定义数据和密码。

PyPDF2 是一个开源的纯 Python 库,它提供了在 Python 应用程序中处理 PDF 文件的能力,而无需任何外部依赖。该库支持许多重要的 PDF 功能,例如合并多个 PDF 文件、提取 PDF 文件的内容、按角度旋转 PDF 文件页面、缩放 PDF 页面、转换 PDF 文件的页面、从 PDF 页面中提取图像和还有很多。

开源编程库 PyPDF2 非常容易使用,并且源代码文档齐全且易于理解。该库使开发人员能够读取和提取 PDF 文件元数据,例如页数、作者、创建者、创建和上次更新时间等。该库还支持仅用几行 Python 代码加密和解密 PDF 文件。

.

Previous Next

PyPDF2 入门

PyPDF2 不是 Python 标准库的一部分,因此您需要自己安装它。这样做的首选方法是使用 pip。

通过 pip 安装 PyPDF2

 python -m pip install pypdf2  

通过 Python 从 PDF 中提取文本

PyPDF2 库提供了通过 Python 以编程方式从 PDF 文件中提取文本的功能。从 PDF 文件中检索数据并不容易,因为 PDF 存储信息的方式使其难以实现。 PyPDF2 通过为开发人员提供易于使用的内置函数来检索信息,使他们的工作变得轻松。他们可以使用页面对象上的 extractText() 方法来获取页面的文本内容。

通过 Python 从 PDF 中提取文本

 // extract text from a PDF
  from PyPDF2 import PdfReader
  reader = PdfReader("example.pdf")
  page = reader.pages[0]
  print(page.extract_text()) 

通过 Python 读取 PDF 文件

PyPDF2 库提供了通过 Python 以编程方式从 PDF 文件中提取文本的功能。从 PDF 文件中检索数据并不容易,因为 PDF 存储信息的方式使其难以实现。 PyPDF2 通过为开发人员提供易于使用的内置函数来检索信息,使他们的工作变得轻松。他们可以使用页面对象上的 extractText() 方法来获取页面的文本内容。

通过 Python 读取 PDF 文件

 // Reading text from a PDF
    from PyPDF2 import PdfReader
  reader = PdfReader("example.pdf")
  for page in reader.pages:
    if "/Annots" in page:
      for annot in page["/Annots"]:
        subtype = annot.get_object()["/Subtype"]
        if subtype == "/Text":
          print(annot.get_object()["/Contents"]) 

合并或拆分 PDF 文档

您是否曾经遇到过需要将两个或多个 PDF 文件合并到一个文档中的情况?该组织通常需要将多个 PDF 文件合并到一个文档中。 PyPDF2 库提供了将 PDF 文件与几行 Python 代码相结合的能力。开发人员还可以根据需要轻松地将大型 PDF 文档拆分为较小的文档。开发人员可以轻松提取 PDF 书籍的特定部分或将其拆分为多个 PDF

通过 Python 合并 PDF 文件

 // Merge PDF files 
  from PyPDF2 import PdfMerger
  merger = PdfMerger()
  for pdf in ["file1.pdf", "file2.pdf", "file3.pdf"]:
    merger.append(pdf)
  merger.write("merged-pdf.pdf")
  merger.close()

从 PDF 文件中提取元数据

PyPDF2 库包含使用几个 Python 命令从 PDF 文档中提取元数据的功能。您可以轻松获取有关作者、创建者应用程序、页数、文档标题和创建日期等信息。您可以轻松提取 PDF 文档的元数据并根据需要使用它。

 

通过 Python 从 PDF 中提取元数据

 // Reading PDF Metadata 
  from PyPDF2 import PdfReader
reader = PdfReader("example.pdf")
meta = reader.metadata
print(len(reader.pages))
# All of the following could be None!
print(meta.author)
print(meta.creator)
print(meta.producer)
print(meta.subject)
print(meta.title)
 中国人