1. Produktai
  2.   PDF
  3.   Python
  4.   Pypdf2
 
  

Kurkite programas, skirtas dirbti su PDF failais per Python biblioteką

Atvirojo kodo Python API, galinti padalyti, sujungti, apkarpyti ir transformuoti PDF failų puslapius, pridėti tinkintus duomenis ir slaptažodžius prie PDF.

PyPDF2 yra atvirojo kodo gryna Python biblioteka, kuri suteikia galimybę dirbti su PDF failais Python programose be jokių išorinių priklausomybių. Biblioteka palaiko daugybę svarbių PDF funkcijų, tokių kaip kelių PDF failų sujungimas, PDF failo turinio ištraukimas, PDF failo puslapių pasukimas kampu, PDF puslapių mastelio keitimas, PDF failų puslapių transformavimas, vaizdų ištraukimas iš PDF puslapių ir daug daugiau.

Atvirojo kodo programavimo biblioteka PyPDF2 labai lengva naudoti , o šaltinio kodas yra gerai dokumentuotas ir lengvai suprantamas. Biblioteka leidžia kūrėjams skaityti ir išgauti PDF failų metaduomenis, tokius kaip puslapių skaičius, autorius, kūrėjas, sukūrimo ir paskutinio atnaujinimo laikas ir kt. Biblioteka taip pat palaiko PDF failų šifravimą ir iššifravimą naudojant tik kelias Python kodo eilutes.

.

Previous Next

Darbo su PyPDF2 pradžia

PyPDF2 nėra standartinės Python bibliotekos dalis, todėl turėsite ją įdiegti patys. Geriausias būdas tai padaryti yra naudoti pip.

Įdiekite PyPDF2  per pip

 python -m pip install pypdf2  

Ištraukite tekstą iš PDF per Python

PyPDF2 biblioteka suteikia galimybę programiškai išgauti tekstą iš PDF failų per Python. Duomenis iš PDF failo nėra lengva nuskaityti, nes tai, kaip PDF saugo informaciją, tiesiog apsunkina ją pasiekti. PyPDF2 palengvina kūrėjų darbą, nes suteikia jiems lengvai naudojamas integruotas informacijos gavimo funkcijas. Jie gali naudoti puslapio objekto metodą extractText(), kad gautų puslapio tekstinį turinį.

Ištraukite tekstą iš PDF naudodami Python

 // extract text from a PDF
  from PyPDF2 import PdfReader
  reader = PdfReader("example.pdf")
  page = reader.pages[0]
  print(page.extract_text()) 

Skaityti PDF failus per Python

PyPDF2 biblioteka suteikia galimybę programiškai išgauti tekstą iš PDF failų per Python. Duomenis iš PDF failo nėra lengva nuskaityti, nes tai, kaip PDF saugo informaciją, tiesiog apsunkina ją pasiekti. PyPDF2 palengvina kūrėjų darbą, nes suteikia jiems lengvai naudojamas integruotas informacijos gavimo funkcijas. Jie gali naudoti puslapio objekto metodą extractText(), kad gautų puslapio tekstinį turinį.

Skaityti PDF failą per Python

 // Reading text from a PDF
    from PyPDF2 import PdfReader
  reader = PdfReader("example.pdf")
  for page in reader.pages:
    if "/Annots" in page:
      for annot in page["/Annots"]:
        subtype = annot.get_object()["/Subtype"]
        if subtype == "/Text":
          print(annot.get_object()["/Contents"]) 

Sujungti arba padalinti PDF dokumentus

Ar kada nors teko susidurti su situacija, kai reikėjo sujungti du ar daugiau PDF failų į vieną dokumentą? Organizacija dažnai reikalauja sujungti kelis PDF failus į vieną dokumentą. PyPDF2 biblioteka suteikia galimybę sujungti PDF failus tik su keliomis Python kodo eilutėmis. Kūrėjai taip pat gali lengvai padalinti didelius PDF dokumentus į mažesnius pagal savo poreikius. Kūrėjai gali lengvai išgauti konkrečią PDF knygos dalį arba padalinti ją į kelis PDF failus

Sujunkite PDF failus naudodami Python

 // Merge PDF files 
  from PyPDF2 import PdfMerger
  merger = PdfMerger()
  for pdf in ["file1.pdf", "file2.pdf", "file3.pdf"]:
    merger.append(pdf)
  merger.write("merged-pdf.pdf")
  merger.close()

Ištraukite metaduomenis iš PDF failų

PyPDF2 bibliotekoje yra metaduomenų ištraukimo iš PDF dokumentų funkcija naudojant keletą Python komandų. Galite lengvai gauti informaciją apie autorių, kūrėjo programėlę, puslapių skaičių, dokumento pavadinimą, sukūrimo datas ir kt. Galite lengvai išgauti PDF dokumentų metaduomenis ir naudoti juos pagal savo poreikius.

 

Ištraukite metaduomenis iš PDF per Python

 // Reading PDF Metadata 
  from PyPDF2 import PdfReader
reader = PdfReader("example.pdf")
meta = reader.metadata
print(len(reader.pages))
# All of the following could be None!
print(meta.author)
print(meta.creator)
print(meta.producer)
print(meta.subject)
print(meta.title)
 Lietuvių