1. Produkti
  2.   PDF
  3.   Python
  4.   Pypdf2
 
  

Izstrādājiet lietotnes darbam ar PDF failiem, izmantojot Python bibliotēku

Atvērtā pirmkoda Python API, kas var sadalīt, apvienot, apgriezt un pārveidot PDF failu lapas, pievienot PDF failam pielāgotus datus un paroles.

PyPDF2 ir atvērtā pirmkoda Python bibliotēka, kas nodrošina iespēju strādāt ar PDF failiem Python lietojumprogrammās bez ārējām atkarībām. Bibliotēkā ir iekļauts atbalsts daudzām svarīgām PDF funkcijām, piemēram, vairāku PDF failu sapludināšanai, PDF faila satura izvilkšanai, PDF faila lappušu pagriešanai leņķī, PDF lappušu mērogošanai, PDF failu lapu pārveidošanai, attēlu izvilkšanai no PDF lapām un daudz vairāk.

Atvērtā pirmkoda programmēšanas bibliotēka PyPDF2 ir ļoti viegli lietojama , un pirmkods ir labi dokumentēts un viegli saprotams. Bibliotēka ļauj izstrādātājiem lasīt un izvilkt PDF failu metadatus, piemēram, lappušu skaitu, autoru, veidotāju, izveidoto un pēdējo atjaunināšanas laiku utt. Bibliotēka atbalsta arī PDF failu šifrēšanu un atšifrēšanu, izmantojot tikai dažas Python koda rindas.

.

Previous Next

Darba sākšana ar PyPDF2

PyPDF2 nav Python standarta bibliotēkas daļa, tāpēc jums tas būs jāinstalē pašam. Ieteicamais veids, kā to izdarīt, ir izmantot pip.

Instalējiet PyPDF2, izmantojot pip

 python -m pip install pypdf2  

Izņemiet tekstu no PDF, izmantojot Python

PyPDF2 bibliotēka nodrošina iespēju programmatiski izvilkt tekstu no PDF failiem, izmantojot Python. Nav viegli izgūt datus no PDF faila, jo veids, kā PDF glabā informāciju, vienkārši apgrūtina to sasniegšanu. PyPDF2 atvieglo izstrādātāju darbu, nodrošinot viņiem viegli lietojamas iebūvētās funkcijas informācijas izgūšanai. Viņi lapas objektā var izmantot metodi extractText(), lai iegūtu lapas teksta saturu.

Izņemiet tekstu no PDF faila, izmantojot Python

 // extract text from a PDF
  from PyPDF2 import PdfReader
  reader = PdfReader("example.pdf")
  page = reader.pages[0]
  print(page.extract_text()) 

PDF failu lasīšana, izmantojot Python

PyPDF2 bibliotēka nodrošina iespēju programmatiski izvilkt tekstu no PDF failiem, izmantojot Python. Nav viegli izgūt datus no PDF faila, jo veids, kā PDF glabā informāciju, vienkārši apgrūtina to sasniegšanu. PyPDF2 atvieglo izstrādātāju darbu, nodrošinot viņiem viegli lietojamas iebūvētās funkcijas informācijas izgūšanai. Viņi lapas objektā var izmantot metodi extractText(), lai iegūtu lapas teksta saturu.

PDF faila lasīšana, izmantojot Python

 // Reading text from a PDF
    from PyPDF2 import PdfReader
  reader = PdfReader("example.pdf")
  for page in reader.pages:
    if "/Annots" in page:
      for annot in page["/Annots"]:
        subtype = annot.get_object()["/Subtype"]
        if subtype == "/Text":
          print(annot.get_object()["/Contents"]) 

Apvienojiet vai sadaliet PDF dokumentus

Vai esat kādreiz bijis situācijā, kad vajadzēja apvienot divus vai vairākus PDF failus vienā dokumentā? Organizācijai bieži ir nepieciešams apvienot vairākus PDF failus vienā dokumentā. PyPDF2 bibliotēka nodrošina iespēju apvienot PDF failus tikai ar pāris Python koda rindām. Izstrādātāji var arī viegli sadalīt lielus PDF dokumentus mazākos atbilstoši savām vajadzībām. Izstrādātāji var viegli iegūt noteiktu PDF grāmatas daļu vai sadalīt to vairākos PDF failos

Apvienojiet PDF failus, izmantojot Python

 // Merge PDF files 
  from PyPDF2 import PdfMerger
  merger = PdfMerger()
  for pdf in ["file1.pdf", "file2.pdf", "file3.pdf"]:
    merger.append(pdf)
  merger.write("merged-pdf.pdf")
  merger.close()

Izņemiet metadatus no PDF failiem

PyPDF2 bibliotēkā ir iekļauta funkcionalitāte metadatu iegūšanai no PDF dokumentiem, izmantojot pāris Python komandas. Jūs varat viegli iegūt informāciju par autoru, veidotāja lietotni, lappušu skaitu, dokumenta nosaukumu un izveides datumiem utt. Varat viegli iegūt PDF dokumentu metadatus un izmantot tos atbilstoši savām vajadzībām.

 

Izņemiet metadatus no PDF, izmantojot Python

 // Reading PDF Metadata 
  from PyPDF2 import PdfReader
reader = PdfReader("example.pdf")
meta = reader.metadata
print(len(reader.pages))
# All of the following could be None!
print(meta.author)
print(meta.creator)
print(meta.producer)
print(meta.subject)
print(meta.title)
 Latviski