Biblioteca Python cu sursă deschisă pentru conversia fișierelor PDF
API-ul Python gratuit permite dezvoltatorilor să exporte, să roteze, să îmbine și să concateneze fișiere PDF, să extragă date și elemente din PDF-uri.
pdfrw este o bibliotecă Python cu sursă deschisă, care oferă dezvoltatorilor de software să citească și să scrie fișiere PDF fără a instala niciun software special extern. Biblioteca de programare pdfrw este foarte simplude utilizat, iar codul sursă este bine documentat, foarte simplu și ușor de înțeles. Biblioteca a inclus suport adecvat pentru Unicode pentru șirurile de text din PDF-uri, precum și cel mai rapid parser PDF pur Python.
Biblioteca pdfrw include suport pentru mai multe operațiuni PDF importante, cum ar fi fuzionarea PDF-urilor, modificarea metadatelor, concatenarea mai multor PDF-uri împreună, extragerea de imagini, imprimarea PDF, Rotirea paginilor PDF, Crearea unui PDF nou, Adăugarea unei imagini PDF cu filigran și multe altele.
.
Noțiuni introductive cu pdfrw
pdfrw necesită Python 2.6, 2.7, 3.3, 3.4, 3.5 și 3.6. Puteți instala pdfrw folosind pip. Vă rugăm să utilizați următoarea comandă pentru a o instala.
Instalați pdfrw prin pip
python -m pip install pdfrw
Creați documente PDF prin biblioteca Python
Biblioteca pdfrw oferă dezvoltatorilor de software capacitatea de a crea Creați documente PDF în propriile aplicații Python cu doar câteva linii de cod. Biblioteca oferă, de asemenea, suport pentru accesarea și modificarea fișierelor PDF existente. Puteți insera cu ușurință pagini noi, precum și componente grafice sau elemente de text în PDF-ul existent. Biblioteca pdfrw oferă suport pentru a găsi paginile din fișierele PDF pe care le-ați citit și pentru a scrie un set de pagini înapoi într-un fișier PDF nou.
Creați și modificați documente PDF prin Python
// PDF Documents Creation
import sys
import os
from pdfrw import PdfReader, PdfWriter
inpfn, = sys.argv[1:]
outfn = 'alter.' + os.path.basename(inpfn)
trailer = PdfReader(inpfn)
trailer.Info.Title = 'My New Title Goes Here'
PdfWriter(outfn, trailer=trailer).write()
Citirea fișierelor PDF prin Python
Biblioteca pdfrw oferă dezvoltatorilor de software să acceseze și să citească cu ușurință diferite părți ale documentelor PDF din aplicațiile Python. Oferă acces ușor la întregul document PDF. Biblioteca acceptă preluarea informațiilor despre fișier, dimensiunea și multe altele. Acesta creează un atribut special numit pagini, care permite utilizatorilor să listeze toate paginile unui document PDF. Vă permite să extrageți un obiect de informații despre document pe care îl puteți utiliza pentru a extrage informații precum autor, titlu etc.
Accesați și citiți fișiere PDF prin Python
// Reading PDF Files
from pdfrw import pdfreader
def get_pdf_info(path):
pdf = pdfreader(path)
print(pdf.keys())
print(pdf.info)
print(pdf.root.keys())
print('pdf has {} pages'.format(len(pdf.pages)))
if __name__ == '__main__':
get_pdf_info('w9.pdf')
Adăugarea sau modificarea metadatelor
pdfrw permite dezvoltatorilor de software să adauge sau să modifice metadate ale fișierelor PDF în interiorul propriilor aplicații Python. Puteți modifica un singur element de metadate într-un PDF, scrieți rezultatul într-un PDF nou, precum și puteți face să includeți mai multe fișiere și să le concatenați după adăugarea unor metadate fără sens la fișierul PDF de ieșire.
Modificați metadatele PDF prin Python
// Modifying PDF Metadata
import sys
import os
from pdfrw import PdfReader, PdfWriter
inpfn, = sys.argv[1:]
outfn = 'alter.' + os.path.basename(inpfn)
trailer = PdfReader(inpfn)
trailer.Info.Title = 'My New Title Goes Here'
PdfWriter(outfn, trailer=trailer).write()
Împărțirea documentelor PDF
pdfrw permite dezvoltatorilor de software să împartă în mod programatic documentele PDF în interiorul aplicațiilor lor. Un utilizator poate solicita extragerea unei anumite părți a unei cărți PDF sau împărțirea acesteia în mai multe PDF-uri în loc să le stocheze într-un singur fișier. Este foarte ușor cu biblioteca pdfrw, trebuie doar să furnizați o cale de intrare pentru fișierul PDF, numărul de pagini pe care doriți să le extrageți și calea de ieșire.
Împărțiți fișierul PDF în mai multe PDF-uri prin Python
// Splitting PDF file into multiple pdfs
from pdfrw import pdfreader, pdfwriter
def split(path, number_of_pages, output):
pdf_obj = pdfreader(path)
total_pages = len(pdf_obj.pages)
writer = pdfwriter()
for page in range(number_of_pages):
if page <= total_pages:
writer.addpage(pdf_obj.pages[page])
writer.write(output)
if __name__ == '__main__':
split('reportlab-sample.pdf', 10, 'subset.pdf')