Alkalmazások fejlesztése a PDF-fájlok kezeléséhez a Python Library segítségével
Nyílt forráskódú Python API, amely képes a PDF-fájlok oldalainak felosztására, egyesítésére, körbevágására és átalakítására, valamint egyéni adatok és jelszavak hozzáadására a PDF-hez.
A PyPDF2 egy nyílt forráskódú, tiszta Python-könyvtár, amely lehetővé teszi a Python-alkalmazásokon belüli PDF-fájlok kezelését külső függőségek nélkül. A könyvtár számos fontos PDF-funkciót támogat, mint például több PDF-fájl egyesítése, PDF-fájl tartalmának kibontása, PDF-fájl oldalainak szögben történő elforgatása, PDF-oldalak méretezése, PDF-fájlok oldalainak átalakítása, képek kinyerése PDF-oldalakról és sok más.
A PyPDF2 nyílt forráskódú programkönyvtár nagyon könnyen használható , a forráskód pedig jól dokumentált és könnyen érthető. A könyvtár lehetővé teszi a fejlesztők számára, hogy elolvassák és kivonják a PDF-fájlok metaadatait, például az oldalak számát, a szerzőt, az alkotót, a létrehozási és utolsó frissítési időt stb. A könyvtár támogatja a PDF-fájlok titkosítását és visszafejtését is, mindössze néhány sor Python kóddal.
.
A PyPDF2 használatának első lépései
A PyPDF2 nem a Python Standard Library része, ezért Önnek kell telepítenie. Ennek előnyben részesített módja a pip használata.
Telepítse a PyPDF2-t a pip segítségével
python -m pip install pypdf2
Szöveg kibontása PDF-ből Python segítségével
A PyPDF2 könyvtár lehetőséget biztosít a szöveg programozott kivonására PDF-fájlokból Python segítségével. Nem könnyű adatokat lekérni egy PDF-fájlból, mert a PDF-fájlok tárolási módja megnehezíti az adatok elérését. A PyPDF2 megkönnyíti a fejlesztők munkáját azáltal, hogy könnyen használható beépített funkciókat biztosít az információk lekéréséhez. Használhatják az extractText() metódust az oldalobjektumban, hogy megkapják az oldal szöveges tartalmát.
Szöveg kibontása PDF-ből Python segítségével
// extract text from a PDF
from PyPDF2 import PdfReader
reader = PdfReader("example.pdf")
page = reader.pages[0]
print(page.extract_text())
PDF fájlok olvasása Python segítségével
A PyPDF2 könyvtár lehetőséget biztosít a szöveg programozott kivonására PDF-fájlokból Python segítségével. Nem könnyű lekérni az adatokat egy PDF-fájlból, mert a PDF-fájlok tárolási módja megnehezíti az adatok elérését. A PyPDF2 megkönnyíti a fejlesztők munkáját azáltal, hogy könnyen használható beépített funkciókat biztosít az információk lekéréséhez. Használhatják az extractText() metódust az oldalobjektumban, hogy megkapják az oldal szöveges tartalmát.
PDF fájl olvasása Python segítségével
// Reading text from a PDF
from PyPDF2 import PdfReader
reader = PdfReader("example.pdf")
for page in reader.pages:
if "/Annots" in page:
for annot in page["/Annots"]:
subtype = annot.get_object()["/Subtype"]
if subtype == "/Text":
print(annot.get_object()["/Contents"])
PDF dokumentumok egyesítése vagy felosztása
Volt már olyan helyzetben, amikor két vagy több PDF-fájlt kellett egyetlen dokumentummá egyesítenie? A szervezet gyakran több PDF-fájlt egyetlen dokumentumba egyesít. A PyPDF2 könyvtár lehetővé teszi a PDF fájlok pár soros Python kóddal történő kombinálását. A fejlesztők a nagy PDF-dokumentumokat is könnyedén kisebbre bonthatják igényeik szerint. A fejlesztők könnyedén kibonthatják a PDF-könyv egy adott részét, vagy feloszthatják több PDF-fájlra
PDF fájlok egyesítése Python segítségével
// Merge PDF files
from PyPDF2 import PdfMerger
merger = PdfMerger()
for pdf in ["file1.pdf", "file2.pdf", "file3.pdf"]:
merger.append(pdf)
merger.write("merged-pdf.pdf")
merger.close()
Metaadatok kibontása PDF-fájlokból
A PyPDF2 könyvtár tartalmaz olyan funkciókat, amelyek segítségével néhány Python-parancs segítségével kivonhatja a metaadatokat PDF-dokumentumokból. Könnyedén tájékozódhat a szerzőről, a készítő alkalmazásról, az oldalak számáról, a dokumentum címéről, a létrehozás dátumáról stb. Könnyedén kinyerheti a PDF dokumentumok metaadatait, és igényei szerint felhasználhatja.
Metaadatok kibontása PDF-ből Python segítségével
// Reading PDF Metadata
from PyPDF2 import PdfReader
reader = PdfReader("example.pdf")
meta = reader.metadata
print(len(reader.pages))
# All of the following could be None!
print(meta.author)
print(meta.creator)
print(meta.producer)
print(meta.subject)
print(meta.title)