Αναπτύξτε εφαρμογές για εργασία με αρχεία PDF μέσω της βιβλιοθήκης Python

Ανοιχτού κώδικα API Python με δυνατότητα διαχωρισμού, συγχώνευσης, περικοπής και μετατροπής των σελίδων αρχείων PDF, προσθήκη προσαρμοσμένων δεδομένων και κωδικών πρόσβασης σε PDF.

Το PyPDF2 είναι μια καθαρή βιβλιοθήκη Python ανοιχτού κώδικα που παρέχει τη δυνατότητα εργασίας με αρχεία PDF εντός εφαρμογών Python χωρίς εξωτερικές εξαρτήσεις. Η βιβλιοθήκη περιλαμβάνει υποστήριξη για πολλές σημαντικές λειτουργίες PDF, όπως συγχώνευση πολλαπλών αρχείων PDF, εξαγωγή του περιεχομένου του αρχείου PDF, περιστροφή σελίδων αρχείων PDF κατά γωνία, κλιμάκωση σελίδων PDF, μετατροπή των σελίδων αρχείων PDF, εξαγωγή εικόνων από σελίδες PDF και πολλά περισσότερα.

Η βιβλιοθήκη προγραμματισμού ανοιχτού κώδικα PyPDF2 είναι πολύ εύκολη στη χρήση και ο πηγαίος κώδικας είναι καλά τεκμηριωμένος και κατανοητός. Η βιβλιοθήκη επιτρέπει στους προγραμματιστές να διαβάζουν και να εξαγάγουν μεταδεδομένα Αρχείων PDF όπως ο αριθμός των σελίδων, ο συγγραφέας, ο δημιουργός, ο χρόνος δημιουργίας και τελευταίας ενημέρωσης κ.λπ. Η βιβλιοθήκη υποστηρίζει επίσης την κρυπτογράφηση και την αποκρυπτογράφηση αρχείων PDF με μερικές μόνο γραμμές κώδικα Python.

.

Previous Next

Ξεκινώντας με το PyPDF2

Το PyPDF2 δεν διατίθεται ως μέρος της βασικής βιβλιοθήκης Python, επομένως θα χρειαστεί να το εγκαταστήσετε μόνοι σας. Ο προτιμώμενος τρόπος για να το κάνετε αυτό είναι να χρησιμοποιήσετε το pip.

Εγκαταστήστε το PyPDF2  μέσω pip

 python -m pip install pypdf2  

Εξαγωγή κειμένου από PDF μέσω Python

Η βιβλιοθήκη PyPDF2 παρέχει τη δυνατότητα για προγραμματική εξαγωγή κειμένου από αρχεία PDF μέσω Python. Δεν είναι εύκολο να ανακτήσετε δεδομένα από ένα αρχείο PDF επειδή ο τρόπος με τον οποίο το PDF αποθηκεύει πληροφορίες απλώς καθιστά δύσκολη την επίτευξή τους. Το PyPDF2 διευκολύνει τη δουλειά των προγραμματιστών παρέχοντάς τους εύχρηστες ενσωματωμένες λειτουργίες για την ανάκτηση πληροφοριών. Μπορούν να χρησιμοποιήσουν τη μέθοδο extractText() στο αντικείμενο σελίδας για να λάβουν το περιεχόμενο κειμένου της σελίδας.

Εξαγωγή κειμένου από PDF μέσω Python

 // extract text from a PDF
  from PyPDF2 import PdfReader
  reader = PdfReader("example.pdf")
  page = reader.pages[0]
  print(page.extract_text()) 

Ανάγνωση αρχείων PDF μέσω Python

Η βιβλιοθήκη PyPDF2 παρέχει τη δυνατότητα για προγραμματική εξαγωγή κειμένου από αρχεία PDF μέσω Python. Δεν είναι εύκολο να ανακτήσετε δεδομένα από ένα αρχείο PDF επειδή ο τρόπος με τον οποίο το PDF αποθηκεύει πληροφορίες απλώς καθιστά δύσκολη την επίτευξή τους. Το PyPDF2 διευκολύνει τις εργασίες των προγραμματιστών παρέχοντάς τους εύχρηστες ενσωματωμένες λειτουργίες για την ανάκτηση πληροφοριών. Μπορούν να χρησιμοποιήσουν τη μέθοδο extractText() στο αντικείμενο σελίδας για να λάβουν το περιεχόμενο κειμένου της σελίδας.

Ανάγνωση αρχείου PDF μέσω Python

 // Reading text from a PDF
    from PyPDF2 import PdfReader
  reader = PdfReader("example.pdf")
  for page in reader.pages:
    if "/Annots" in page:
      for annot in page["/Annots"]:
        subtype = annot.get_object()["/Subtype"]
        if subtype == "/Text":
          print(annot.get_object()["/Contents"]) 

Συγχώνευση ή διαίρεση εγγράφων PDF

Έχετε βρεθεί ποτέ σε μια κατάσταση όπου έπρεπε να συγχωνεύσετε δύο ή περισσότερα αρχεία PDF σε ένα μόνο έγγραφο; Ο οργανισμός απαιτεί συχνά τη συγχώνευση πολλών αρχείων PDF σε ένα μόνο έγγραφο. Η βιβλιοθήκη PyPDF2 παρέχει τη δυνατότητα συνδυασμού αρχείων PDF με μερικές μόνο γραμμές κώδικα Python. Οι προγραμματιστές μπορούν επίσης να χωρίσουν εύκολα μεγάλα έγγραφα PDF σε μικρότερα ανάλογα με τις ανάγκες τους. Οι προγραμματιστές μπορούν εύκολα να εξαγάγουν ένα συγκεκριμένο μέρος ενός βιβλίου PDF ή να το χωρίσουν σε πολλά PDF

Συγχώνευση αρχείων PDF μέσω Python

 // Merge PDF files 
  from PyPDF2 import PdfMerger
  merger = PdfMerger()
  for pdf in ["file1.pdf", "file2.pdf", "file3.pdf"]:
    merger.append(pdf)
  merger.write("merged-pdf.pdf")
  merger.close()

Εξαγωγή μεταδεδομένων από αρχεία PDF

Η βιβλιοθήκη PyPDF2 έχει συμπεριλάβει λειτουργικότητα για την εξαγωγή Μεταδεδομένων από έγγραφα PDF χρησιμοποιώντας μερικές εντολές Python. Μπορείτε να λάβετε εύκολα πληροφορίες σχετικά με τον συγγραφέα, την εφαρμογή δημιουργού, τον αριθμό των σελίδων, τον τίτλο του εγγράφου και τις ημερομηνίες δημιουργίας κ.λπ. Μπορείτε εύκολα να εξαγάγετε μεταδεδομένα εγγράφων PDF και να τα χρησιμοποιήσετε σύμφωνα με τις ανάγκες σας.

 

Εξαγωγή μεταδεδομένων από PDF μέσω Python

 // Reading PDF Metadata 
  from PyPDF2 import PdfReader
reader = PdfReader("example.pdf")
meta = reader.metadata
print(len(reader.pages))
# All of the following could be None!
print(meta.author)
print(meta.creator)
print(meta.producer)
print(meta.subject)
print(meta.title)
 Ελληνικά