Разработка приложений для работы с PDF-файлами с помощью библиотеки Python

Python API с открытым исходным кодом, способный разделять, объединять, обрезать и преобразовывать страницы PDF-файлов, добавлять пользовательские данные и пароли в PDF.

PyPDF2 — это чистая библиотека Python с открытым исходным кодом, которая обеспечивает возможность работы с файлами PDF внутри приложений Python без каких-либо внешних зависимостей. Библиотека включает поддержку множества важных функций PDF, таких как объединение нескольких файлов PDF, извлечение содержимого файла PDF, поворот страниц файла PDF на угол, масштабирование страниц PDF, преобразование страниц файлов PDF, извлечение изображений из страниц PDF и т. д. многое другое.

Библиотека программирования с открытым исходным кодом PyPDF2 очень проста в использовании, а исходный код хорошо документирован и прост для понимания. Библиотека позволяет разработчикам читать и извлекать метаданные PDF-файлов, такие как количество страниц, автор, создатель, время создания и последнего обновления и т. д. Библиотека также поддерживает шифрование и дешифрование PDF-файлов с помощью всего пары строк кода Python.

С одного взгляда

Обзор функций PyPDF2.

Обзор функций

Создать PDF
Обрезать
Преобразование PDF-страниц
Разделить PDF-файлы
Объединить PDF-файлы
Встраивание гиперссылок
Вставить круги
Добавить пользовательские данные
Добавить фигуры
Поддержка Юникода
Встраивание шрифта
Зашифровать PDF
Встраивание изображений
Добавить пароли
Метаданные

PyPDF2

PyPDF2 поддерживает формат файла PDF, а также стандартные отраслевые форматы для экспорта.

Читатель

Писатель

TXT, HTML

PyPDF2

Независимость от платформы

PyPDF2 протестирован с Python 2.6 и выше.

Python 2.6 и выше

PyPDF2

Начало работы с PyPDF2

PyPDF2 не входит в стандартную библиотеку Python, поэтому вам нужно будет установить его самостоятельно. Предпочтительный способ сделать это — использовать pip.

Установите PyPDF2 через pip

 python -m pip install pypdf2

Извлечь текст из PDF через Python

Библиотека PyPDF2 предоставляет возможность программного извлечения текста из файлов PDF с помощью Python. Получить данные из PDF-файла непросто, потому что способ хранения информации в PDF-файле затрудняет ее получение. PyPDF2 упрощает работу разработчиков, предоставляя им простые в использовании встроенные функции для получения информации. Они могут использовать метод extractText() объекта страницы для получения текстового содержимого страницы.

Извлечение текста из PDF с помощью Python

 // extract text from a PDF
  from PyPDF2 import PdfReader
  reader = PdfReader("example.pdf")
  page = reader.pages[0]
  print(page.extract_text())

Чтение PDF-файлов через Python

Чтение PDF-файла через Python

 // Reading text from a PDF
    from PyPDF2 import PdfReader
  reader = PdfReader("example.pdf")
  for page in reader.pages:
    if "/Annots" in page:
      for annot in page["/Annots"]:
        subtype = annot.get_object()["/Subtype"]
        if subtype == "/Text":
          print(annot.get_object()["/Contents"])

Объединение или разделение PDF-документов

Вы когда-нибудь были в ситуации, когда вам нужно было объединить два или более PDF-файла в один документ? Организации часто требуется объединить несколько PDF-файлов в один документ. Библиотека PyPDF2 позволяет объединять PDF-файлы всего в пару строк кода Python. Разработчики также могут легко разбивать большие PDF-документы на более мелкие в соответствии со своими потребностями. Разработчики могут легко извлечь определенную часть книги в формате PDF или разделить ее на несколько файлов PDF.

Слияние PDF-файлов через Python

 // Merge PDF files 
  from PyPDF2 import PdfMerger
  merger = PdfMerger()
  for pdf in ["file1.pdf", "file2.pdf", "file3.pdf"]:
    merger.append(pdf)
  merger.write("merged-pdf.pdf")
  merger.close()

Извлечение метаданных из файлов PDF

В библиотеку PyPDF2 включены функции для извлечения метаданных из документов PDF с помощью нескольких команд Python. Вы можете легко получить информацию об авторе, приложении-создателе, количестве страниц, названии документа, дате создания и т. д. Вы можете легко извлекать метаданные документов PDF и использовать их в соответствии со своими потребностями.

Извлечение метаданных из PDF через Python

 // Reading PDF Metadata 
  from PyPDF2 import PdfReader
reader = PdfReader("example.pdf")
meta = reader.metadata
print(len(reader.pages))
# All of the following could be None!
print(meta.author)
print(meta.creator)
print(meta.producer)
print(meta.subject)
print(meta.title)