Разработка приложений для работы с PDF-файлами с помощью библиотеки Python
Python API с открытым исходным кодом, способный разделять, объединять, обрезать и преобразовывать страницы PDF-файлов, добавлять пользовательские данные и пароли в PDF.
PyPDF2 — это чистая библиотека Python с открытым исходным кодом, которая обеспечивает возможность работы с файлами PDF внутри приложений Python без каких-либо внешних зависимостей. Библиотека включает поддержку множества важных функций PDF, таких как объединение нескольких файлов PDF, извлечение содержимого файла PDF, поворот страниц файла PDF на угол, масштабирование страниц PDF, преобразование страниц файлов PDF, извлечение изображений из страниц PDF и т. д. многое другое.
Библиотека программирования с открытым исходным кодом PyPDF2 очень проста в использовании, а исходный код хорошо документирован и прост для понимания. Библиотека позволяет разработчикам читать и извлекать метаданные PDF-файлов, такие как количество страниц, автор, создатель, время создания и последнего обновления и т. д. Библиотека также поддерживает шифрование и дешифрование PDF-файлов с помощью всего пары строк кода Python.
.
Начало работы с PyPDF2
PyPDF2 не входит в стандартную библиотеку Python, поэтому вам нужно будет установить его самостоятельно. Предпочтительный способ сделать это — использовать pip.
Установите PyPDF2 через pip
python -m pip install pypdf2
Извлечь текст из PDF через Python
Библиотека PyPDF2 предоставляет возможность программного извлечения текста из файлов PDF с помощью Python. Получить данные из PDF-файла непросто, потому что способ хранения информации в PDF-файле затрудняет ее получение. PyPDF2 упрощает работу разработчиков, предоставляя им простые в использовании встроенные функции для получения информации. Они могут использовать метод extractText() объекта страницы для получения текстового содержимого страницы.
Извлечение текста из PDF с помощью Python
// extract text from a PDF
from PyPDF2 import PdfReader
reader = PdfReader("example.pdf")
page = reader.pages[0]
print(page.extract_text())
Чтение PDF-файлов через Python
Библиотека PyPDF2 предоставляет возможность программного извлечения текста из файлов PDF с помощью Python. Получить данные из PDF-файла непросто, потому что способ хранения информации в PDF-файле затрудняет ее получение. PyPDF2 упрощает работу разработчиков, предоставляя им простые в использовании встроенные функции для получения информации. Они могут использовать метод extractText() объекта страницы для получения текстового содержимого страницы.
Чтение PDF-файла через Python
// Reading text from a PDF
from PyPDF2 import PdfReader
reader = PdfReader("example.pdf")
for page in reader.pages:
if "/Annots" in page:
for annot in page["/Annots"]:
subtype = annot.get_object()["/Subtype"]
if subtype == "/Text":
print(annot.get_object()["/Contents"])
Объединение или разделение PDF-документов
Вы когда-нибудь были в ситуации, когда вам нужно было объединить два или более PDF-файла в один документ? Организации часто требуется объединить несколько PDF-файлов в один документ. Библиотека PyPDF2 позволяет объединять PDF-файлы всего в пару строк кода Python. Разработчики также могут легко разбивать большие PDF-документы на более мелкие в соответствии со своими потребностями. Разработчики могут легко извлечь определенную часть книги в формате PDF или разделить ее на несколько файлов PDF.
Слияние PDF-файлов через Python
// Merge PDF files
from PyPDF2 import PdfMerger
merger = PdfMerger()
for pdf in ["file1.pdf", "file2.pdf", "file3.pdf"]:
merger.append(pdf)
merger.write("merged-pdf.pdf")
merger.close()
Извлечение метаданных из файлов PDF
В библиотеку PyPDF2 включены функции для извлечения метаданных из документов PDF с помощью нескольких команд Python. Вы можете легко получить информацию об авторе, приложении-создателе, количестве страниц, названии документа, дате создания и т. д. Вы можете легко извлекать метаданные документов PDF и использовать их в соответствии со своими потребностями.
Извлечение метаданных из PDF через Python
// Reading PDF Metadata
from PyPDF2 import PdfReader
reader = PdfReader("example.pdf")
meta = reader.metadata
print(len(reader.pages))
# All of the following could be None!
print(meta.author)
print(meta.creator)
print(meta.producer)
print(meta.subject)
print(meta.title)