1. Termékek
  2.   PDF
  3.   Python
  4.   Pypdf2
 
  

Alkalmazások fejlesztése a PDF-fájlok kezeléséhez a Python Library segítségével

Nyílt forráskódú Python API, amely képes a PDF-fájlok oldalainak felosztására, egyesítésére, körbevágására és átalakítására, valamint egyéni adatok és jelszavak hozzáadására a PDF-hez.

A PyPDF2 egy nyílt forráskódú, tiszta Python-könyvtár, amely lehetővé teszi a Python-alkalmazásokon belüli PDF-fájlok kezelését külső függőségek nélkül. A könyvtár számos fontos PDF-funkciót támogat, mint például több PDF-fájl egyesítése, PDF-fájl tartalmának kibontása, PDF-fájl oldalainak szögben történő elforgatása, PDF-oldalak méretezése, PDF-fájlok oldalainak átalakítása, képek kinyerése PDF-oldalakról és sok más.

A PyPDF2 nyílt forráskódú programkönyvtár nagyon könnyen használható , a forráskód pedig jól dokumentált és könnyen érthető. A könyvtár lehetővé teszi a fejlesztők számára, hogy elolvassák és kivonják a PDF-fájlok metaadatait, például az oldalak számát, a szerzőt, az alkotót, a létrehozási és utolsó frissítési időt stb. A könyvtár támogatja a PDF-fájlok titkosítását és visszafejtését is, mindössze néhány sor Python kóddal.

.

Previous Next

A PyPDF2 használatának első lépései

A PyPDF2 nem a Python Standard Library része, ezért Önnek kell telepítenie. Ennek előnyben részesített módja a pip használata.

Telepítse a PyPDF2-t a pip segítségével

 python -m pip install pypdf2  

Szöveg kibontása PDF-ből Python segítségével

A PyPDF2 könyvtár lehetőséget biztosít a szöveg programozott kivonására PDF-fájlokból Python segítségével. Nem könnyű adatokat lekérni egy PDF-fájlból, mert a PDF-fájlok tárolási módja megnehezíti az adatok elérését. A PyPDF2 megkönnyíti a fejlesztők munkáját azáltal, hogy könnyen használható beépített funkciókat biztosít az információk lekéréséhez. Használhatják az extractText() metódust az oldalobjektumban, hogy megkapják az oldal szöveges tartalmát.

Szöveg kibontása PDF-ből Python segítségével

 // extract text from a PDF
  from PyPDF2 import PdfReader
  reader = PdfReader("example.pdf")
  page = reader.pages[0]
  print(page.extract_text()) 

PDF fájlok olvasása Python segítségével

A PyPDF2 könyvtár lehetőséget biztosít a szöveg programozott kivonására PDF-fájlokból Python segítségével. Nem könnyű lekérni az adatokat egy PDF-fájlból, mert a PDF-fájlok tárolási módja megnehezíti az adatok elérését. A PyPDF2 megkönnyíti a fejlesztők munkáját azáltal, hogy könnyen használható beépített funkciókat biztosít az információk lekéréséhez. Használhatják az extractText() metódust az oldalobjektumban, hogy megkapják az oldal szöveges tartalmát.

PDF fájl olvasása Python segítségével

 // Reading text from a PDF
    from PyPDF2 import PdfReader
  reader = PdfReader("example.pdf")
  for page in reader.pages:
    if "/Annots" in page:
      for annot in page["/Annots"]:
        subtype = annot.get_object()["/Subtype"]
        if subtype == "/Text":
          print(annot.get_object()["/Contents"]) 

PDF dokumentumok egyesítése vagy felosztása

Volt már olyan helyzetben, amikor két vagy több PDF-fájlt kellett egyetlen dokumentummá egyesítenie? A szervezet gyakran több PDF-fájlt egyetlen dokumentumba egyesít. A PyPDF2 könyvtár lehetővé teszi a PDF fájlok pár soros Python kóddal történő kombinálását. A fejlesztők a nagy PDF-dokumentumokat is könnyedén kisebbre bonthatják igényeik szerint. A fejlesztők könnyedén kibonthatják a PDF-könyv egy adott részét, vagy feloszthatják több PDF-fájlra

PDF fájlok egyesítése Python segítségével

 // Merge PDF files 
  from PyPDF2 import PdfMerger
  merger = PdfMerger()
  for pdf in ["file1.pdf", "file2.pdf", "file3.pdf"]:
    merger.append(pdf)
  merger.write("merged-pdf.pdf")
  merger.close()

Metaadatok kibontása PDF-fájlokból

A PyPDF2 könyvtár tartalmaz olyan funkciókat, amelyek segítségével néhány Python-parancs segítségével kivonhatja a metaadatokat PDF-dokumentumokból. Könnyedén tájékozódhat a szerzőről, a készítő alkalmazásról, az oldalak számáról, a dokumentum címéről, a létrehozás dátumáról stb. Könnyedén kinyerheti a PDF dokumentumok metaadatait, és igényei szerint felhasználhatja.

 

Metaadatok kibontása PDF-ből Python segítségével

 // Reading PDF Metadata 
  from PyPDF2 import PdfReader
reader = PdfReader("example.pdf")
meta = reader.metadata
print(len(reader.pages))
# All of the following could be None!
print(meta.author)
print(meta.creator)
print(meta.producer)
print(meta.subject)
print(meta.title)
 Magyar