1. Προϊόντα
  2.   OCR
  3.   Python
  4.   OCRmyPDF
 
  

Ανοιχτού κώδικα Python OCR API για να κάνετε αναζήτηση σε αρχεία PDF εικόνας

Ένα ισχυρό δωρεάν Python OCR API που αυτοματοποιεί τη διαδικασία OCR και διευκολύνει τη μετατροπή των PDF σαρωμένων εικόνων σε έγγραφα με δυνατότητα αναζήτησης με ευκολία.

Η τεχνολογία Optical Character Recognition (OCR) έχει φέρει επανάσταση στον τρόπο με τον οποίο χειριζόμαστε και επεξεργαζόμαστε έγγραφα, επιτρέποντάς μας να εξάγουμε πολύτιμες πληροφορίες αποτελεσματικά. Ανάμεσα στα πολλά διαθέσιμα εργαλεία OCR, το OCRmyPDF ξεχωρίζει ως μια ευέλικτη και ισχυρή βιβλιοθήκη Python που συνδυάζει την ευκολία χρήσης με την εξαιρετική ακρίβεια. Το OCRmyPDF είναι ένα ανοιχτού κώδικα εργαλείο γραμμής εντολών και βιβλιοθήκη Python που έχει σχεδιαστεί ειδικά για την προσθήκη OCR σε υπάρχοντα αρχεία PDF. Η βιβλιοθήκη αναλύει κάθε σελίδα ενός αρχείου PDF για να προσδιορίσει τον χώρο χρωμάτων και την ανάλυση (DPI) που απαιτούνται για την καταγραφή όλων των πληροφοριών σε αυτήν τη σελίδα χωρίς απώλεια περιεχομένου.

Η βιβλιοθήκη ανοιχτού κώδικα OCRmyPDF υποστηρίζει ένα ευρύ φάσμα μορφών εισαγωγής, συμπεριλαμβανομένων σαρωμένων εικόνων, υπαρχόντων PDF, ακόμη και αρχείων DjVu. Λειτουργεί με βάση την προϋπόθεση "εικόνα συν κείμενο" και στοχεύει στην παραγωγή υψηλής ποιότητας εξόδου διατηρώντας τη δομή και τη μορφοποίηση του αρχικού εγγράφου. Η βιβλιοθήκη χρησιμοποιεί τεχνικές βελτιστοποίησης PDF για τη μείωση του μεγέθους του αρχείου διατηρώντας παράλληλα την υψηλότερη δυνατή ποιότητα. Με την εφαρμογή συμπίεσης και μείωσης δειγματοληψίας, διασφαλίζεται ότι τα αρχεία PDF με δυνατότητα OCR που προκύπτουν είναι αποτελεσματικά στην αποθήκευση και γρήγορη φόρτωση.

Το

OCRmyPDF χρησιμοποιεί την ισχυρή μηχανή OCR Tesseract, η οποία υποστηρίζει περισσότερες από 100 γλώσσες. Οι προηγμένοι αλγόριθμοί του εξασφαλίζουν ακριβή αναγνώριση κειμένου, ακόμη και από εικόνες χαμηλής ποιότητας ή παραμορφωμένες. Η βιβλιοθήκη έχει παράσχει υποστήριξη για τη δημιουργία ενός αρχείου PDF/A με δυνατότητα αναζήτησης από ένα κανονικό PDF με ευκολία. Παρέχει επίσης ορισμένες επιλογές επεξεργασίας εικόνας, όπως το deskew, το οποίο βελτιώνει την εμφάνιση των αρχείων και την ποιότητα του OCR. Όταν χρησιμοποιούνται, το στρώμα OCR εμβολιάζεται στην επεξεργασμένη εικόνα. Το ολοκληρωμένο σύνολο δυνατοτήτων του, συμπεριλαμβανομένης της υποστήριξης για πολλές γλώσσες, της βελτιστοποίησης PDF, του ελέγχου επιπέδου κειμένου και της αυτοματοποιημένης επεξεργασίας, το καθιστά πολύτιμο εργαλείο για επιχειρήσεις, ερευνητές, αρχειοθέτες και οποιονδήποτε ασχολείται με μεγάλους όγκους σαρωμένων εγγράφων.

Previous Next

Ξεκινώντας με το OCRmyPDF

Ο προτεινόμενος τρόπος εγκατάστασης του OCRmyPDF είναι η χρήση του pip. Χρησιμοποιήστε την ακόλουθη εντολή για ομαλή εγκατάσταση.

Εγκαταστήστε το OCRmyPDF μέσω pip

 pip install ocrmypdf 

Μπορείτε επίσης να το εγκαταστήσετε χειροκίνητα. κατεβάστε τα αρχεία τελευταίας έκδοσης απευθείας από το αποθετήριο GitHub.

Βελτιστοποίηση PDF με χρήση Python API

Η βιβλιοθήκη ανοιχτού κώδικα OCRmyPDF παρέχει υποστήριξη για μια πολύ χρήσιμη λειτουργία για τη διαχείριση του μεγέθους και της ποιότητας των εγγράφων PDF εντός των εφαρμογών Python. Η βιβλιοθήκη χρησιμοποιεί τεχνικές βελτιστοποίησης PDF για τη μείωση του μεγέθους του αρχείου διατηρώντας παράλληλα την υψηλότερη δυνατή ποιότητα. Με την εφαρμογή συμπίεσης και δειγματοληψίας προς τα κάτω, διασφαλίζει ότι τα αρχεία PDF με δυνατότητα OCR που προκύπτουν είναι αποτελεσματικά στην αποθήκευση και γρήγορη φόρτωση. Το OCRmyPDF παρέχει πολλές επιλογές βελτιστοποίησης που μπορείτε να προσαρμόσετε με βάση τις απαιτήσεις σας. Ορισμένες επιλογές που χρησιμοποιούνται συνήθως περιλαμβάνουν την αφαίρεση προσωρινών αρχείων, την εφαρμογή συμπίεσης JBIG2, την παράλειψη προσθήκης του OCR, την απενεργοποίηση της συμπίεσης χωρίς απώλειες για μεγιστοποίηση της μείωσης του μεγέθους του αρχείου και ούτω καθεξής.

Πώς να βελτιστοποιήσετε αρχεία PDF χρησιμοποιώντας το Python API;

import subprocess

def optimize_pdf_with_ocrmypdf(input_pdf_path, output_pdf_path):
    try:
        # OCRmyPDF command with optimization options
        command = ['ocrmypdf', '-l', 'eng', '--pdf-renderer', 'hocr', '--optimize', '0', input_pdf_path, output_pdf_path]
        
        # Execute the OCRmyPDF command
        subprocess.run(command, check=True)
        
        print("PDF optimization complete!")
    except subprocess.CalledProcessError as e:
        print(f"OCRmyPDF error: {e}")
        
# Example usage
input_pdf_path = 'input.pdf'
output_pdf_path = 'output.pdf'

optimize_pdf_with_ocrmypdf(input_pdf_path, output_pdf_path)

Ενοποίηση επιπέδου κειμένου PDF μέσω API Python

Η OCRmyPDF, μια βιβλιοθήκη ανοιχτού κώδικα, παρέχει μια ισχυρή λύση για την ενσωμάτωση επιπέδων κειμένου σε αρχεία PDF, βελτιώνοντας την προσβασιμότητα των εγγράφων και την ικανότητα αναζήτησης. Η βιβλιοθήκη προσθέτει ένα επίπεδο κειμένου που περιέχει κείμενο που δημιουργείται από OCR απευθείας στο έγγραφο PDF, διασφαλίζοντας τη διατήρηση της αρχικής διάταξης. Αυτή η δυνατότητα επιτρέπει την αναζήτηση πλήρους κειμένου, την αντιγραφή-επικόλληση και την εξαγωγή κειμένου. Όταν εργάζεστε με έγγραφα PDF, το να έχετε ένα επίπεδο κειμένου ενσωματωμένο στο αρχείο είναι εξαιρετικά πλεονεκτικό. Το επίπεδο κειμένου περιέχει το αναγνωρισμένο κείμενο που δημιουργείται από OCR, καθιστώντας το PDF με δυνατότητα αναζήτησης και επιτρέποντας την εύκολη αντιγραφή και εξαγωγή κειμένου. Αυτή η ενσωμάτωση διατηρεί την αρχική διάταξη του εγγράφου, ενώ ενεργοποιεί λειτουργίες που βασίζονται σε κείμενο, βελτιώνοντας τη χρηστικότητα και την αποτελεσματικότητα του εγγράφου.

 Ελληνικά