Разработвайте приложения за работа с PDF файлове чрез Python Library

API на Python с отворен код, способен на разделяне, обединяване, изрязване и трансформиране на страниците на PDF файлове, добавяне на персонализирани данни и пароли към PDF.

PyPDF2 е библиотека с чист Python с отворен код, която предоставя възможност за работа с PDF файлове в приложения на Python без никакви външни зависимости. Библиотеката включва поддръжка за множество важни PDF функции, като обединяване на множество PDF файлове, извличане на съдържанието на PDF файл, завъртане на страниците на PDF файл под ъгъл, мащабиране на PDF страници, трансформиране на страниците на PDF файлове, извличане на изображения от PDF страници и много повече.

Програмната библиотека с отворен код PyPDF2 е много лесна за използване и изходният код е добре документиран и лесен за разбиране. Библиотеката позволява на разработчиците да четат и извличат метаданни на PDF файлове като брой страници, автор, създател, време на създаване и последна актуализация и т.н. Библиотеката също така поддържа криптиране и декриптиране на PDF файлове само с няколко реда код на Python.

.

Previous Next

Първи стъпки с PyPDF2

PyPDF2 не идва като част от стандартната библиотека на Python, така че ще трябва да го инсталирате сами. Предпочитаният начин да направите това е да използвате pip.

Инсталирайте PyPDF2  чрез pip

 python -m pip install pypdf2  

Извличане на текст от PDF чрез Python

Библиотеката PyPDF2 предоставя възможност за програмно извличане на текст от PDF файлове чрез Python. Не е лесно да се извлекат данни от PDF файл, защото начинът, по който PDF съхранява информацията, просто затруднява постигането му. PyPDF2 улеснява работата на разработчиците, като им предоставя лесни за използване вградени функции за извличане на информация. Те могат да използват метода extractText() на обекта на страницата, за да получат текстовото съдържание на страницата.

Извличане на текст от PDF чрез Python

 // extract text from a PDF
  from PyPDF2 import PdfReader
  reader = PdfReader("example.pdf")
  page = reader.pages[0]
  print(page.extract_text()) 

Четене на PDF файлове чрез Python

Библиотеката PyPDF2 предоставя възможност за програмно извличане на текст от PDF файлове чрез Python. Не е лесно да се извлекат данни от PDF файл, защото начинът, по който PDF съхранява информацията, просто затруднява постигането му. PyPDF2 улеснява работата на разработчиците, като им предоставя лесни за използване вградени функции за извличане на информация. Те могат да използват метода extractText() на обекта на страницата, за да получат текстовото съдържание на страницата.

Четене на PDF файл чрез Python

 // Reading text from a PDF
    from PyPDF2 import PdfReader
  reader = PdfReader("example.pdf")
  for page in reader.pages:
    if "/Annots" in page:
      for annot in page["/Annots"]:
        subtype = annot.get_object()["/Subtype"]
        if subtype == "/Text":
          print(annot.get_object()["/Contents"]) 

Обединяване или разделяне на PDF документи

Били ли сте някога в ситуация, в която трябва да обедините два или повече PDF файла в един документ? Организацията често изисква обединяване на множество PDF файлове в един документ. Библиотеката PyPDF2 предоставя възможност за комбиниране на PDF файлове само с няколко реда код на Python. Разработчиците могат също лесно да разделят големи PDF документи на по-малки според нуждите си. Разработчиците могат лесно да извлекат определена част от PDF книга или да я разделят на множество PDF файлове

Обединете PDF файлове чрез Python

 // Merge PDF files 
  from PyPDF2 import PdfMerger
  merger = PdfMerger()
  for pdf in ["file1.pdf", "file2.pdf", "file3.pdf"]:
    merger.append(pdf)
  merger.write("merged-pdf.pdf")
  merger.close()

Извличане на метаданни от PDF файлове

Библиотеката PyPDF2 включва функционалност за извличане на метаданни от PDF документи с помощта на няколко команди на Python. Можете лесно да получите информация за автора, приложението на създателя, броя на страниците, заглавието на документа и датите на създаване и т.н. Можете лесно да извлечете метаданни от PDF документи и да ги използвате според вашите нужди.

 

Извличане на метаданни от PDF чрез Python

 // Reading PDF Metadata 
  from PyPDF2 import PdfReader
reader = PdfReader("example.pdf")
meta = reader.metadata
print(len(reader.pages))
# All of the following could be None!
print(meta.author)
print(meta.creator)
print(meta.producer)
print(meta.subject)
print(meta.title)
 Български