Βιβλιοθήκη PHP ανοιχτού κώδικα για λειτουργίες OCR σε Εικόνες
Δωρεάν PHP Optical Character Recognition API για την εκτέλεση λειτουργιών OCR σε εικόνες, σαρωμένα έγγραφα και αρχεία PDF χρησιμοποιώντας τη βιβλιοθήκη Tesseract PHP.
Μεταξύ των πολυάριθμων διαθέσιμων εργαλείων OCR, το Tesseract OCR ξεχωρίζει ως ένα από τα πιο ισχυρά και ευέλικτα API που επιτρέπει στους προγραμματιστές λογισμικού να δημιουργούν εφαρμογές για την αναγνώριση και εξαγωγή κειμένου από διάφορες δημοφιλείς οπτικές πηγές. Το Tesseract OCR για PHP είναι ένα πολύ χρήσιμο περιτύλιγμα για εργασία με το Tesseract OCR μέσα σε εφαρμογές PHP. Η ανοιχτού κώδικα Tesseract OCR για βιβλιοθήκη PHP μπορεί να βελτιώσει την ακρίβεια OCR με την προεπεξεργασία της εικόνας. Τεχνικές όπως η αλλαγή μεγέθους, η δυαδοποίηση, η αφαίρεση θορύβου και η αποσκλήρυνση μπορούν να εφαρμοστούν για να ενισχυθεί η ορατότητα του κειμένου και να αφαιρεθούν τυχόν τεχνουργήματα που μπορεί να εμποδίσουν την αναγνώριση.
Το Tesseract OCR για τη βιβλιοθήκη PHP προσφέρει πολλές προηγμένες δυνατότητες και επιλογές προσαρμογής για τη βελτίωση των αποτελεσμάτων OCR εντός εφαρμογών PHP, όπως ο χειρισμός πολύγλωσσων εγγράφων, ο καθορισμός της επιθυμητής γλώσσας(ών) κατά την προετοιμασία OCR για τη βελτίωση της ακρίβειας για συγκεκριμένες γλώσσες, η υποστήριξη τρόπων τμηματοποίησης σελίδων, βελτίωση της ακρίβειας αναγνώρισης για εξειδικευμένες εφαρμογές, υποστήριξη εκπαίδευσης σε προσαρμοσμένες γραμματοσειρές ή σύμβολα ή συγκεκριμένα μοτίβα κειμένου, βελτίωση της προσβασιμότητας, ψηφιοποίηση εγγράφων, ανάλυση κειμένου, εξαγωγή δεδομένων και πολλά άλλα.
Χρησιμοποιήστε το περιτύλιγμα PHP Tesseract για να μεταφέρετε την προεπεξεργασμένη εικόνα στον κινητήρα Tesseract OCR. Το περιτύλιγμα παρέχει λειτουργίες για την εκτέλεση OCR και την ανάκτηση του αναγνωρισμένου κειμένου ως αποτέλεσμα. Το εξαγόμενο κείμενο μπορεί να απαιτεί πρόσθετα βήματα μετα-επεξεργασίας, όπως ορθογραφικός έλεγχος, μορφοποίηση ή τροποποιήσεις για συγκεκριμένη γλώσσα. Για αυτούς τους σκοπούς μπορούν να χρησιμοποιηθούν βιβλιοθήκες PHP όπως το Symfony/string ή το Text_LanguageDetect. Με την ενσωμάτωση του Tesseract OCR στα έργα σας στην PHP, οι προγραμματιστές λογισμικού μπορούν να βελτιστοποιήσουν την επεξεργασία εγγράφων, να αυτοματοποιήσουν την εξαγωγή δεδομένων και να ξεκλειδώσουν ένα νέο επίπεδο αποτελεσματικότητας και προσβασιμότητας στις εφαρμογές τους.
Ξεκινώντας με το Tesseract OCR για PHP
Ο προτεινόμενος τρόπος εγκατάστασης του Tesseract OCR για PHP είναι η χρήση του Composer. Χρησιμοποιήστε την ακόλουθη εντολή για ομαλή εγκατάσταση.
Εγκαταστήστε το Tesseract OCR για PHP μέσω του Composer
$ composer require thiagoalessio/tesseract_ocr
Εγκαταστήστε το Tesseract OCR για PHP μέσω Github
git clone https://github.com/thiagoalessio/tesseract-ocr-for-php.git
Μπορείτε να κάνετε λήψη της μεταγλωττισμένης κοινόχρηστης βιβλιοθήκης από το αποθετήριο Github.
Εξαγωγή κειμένου από εικόνα μέσα σε εφαρμογές PHP
Η βιβλιοθήκη ανοιχτού κώδικα Tesseract OCR για PHP έχει παράσχει ορισμένες χρήσιμες λειτουργίες για την εξαγωγή κειμένου από εικόνες χρησιμοποιώντας εντολές PHP. Η βιβλιοθήκη προσφέρει διαφορετικές λειτουργίες τμηματοποίησης σελίδων για να χειριστεί διάφορες διατάξεις και ρυθμίσεις κειμένου. Ξεκινήστε τη διαδικασία εξαγωγής φορτώνοντας την εικόνα ή το έγγραφο που περιέχει το κείμενο που θέλετε να εξαγάγετε. Χρησιμοποιήστε το περιτύλιγμα Tesseract PHP για να μεταφέρετε την προεπεξεργασμένη εικόνα στον κινητήρα Tesseract OCR. Το περιτύλιγμα παρέχει λειτουργίες για την εκτέλεση OCR και την ανάκτηση του αναγνωρισμένου κειμένου ως αποτέλεσμα. Το παρακάτω παράδειγμα δείχνει μια βασική διαδικασία φόρτωσης μιας εικόνας και εξαγωγής κειμένου από αυτήν χρησιμοποιώντας εντολές PHP.
Πώς μπορώ να φορτώσω εικόνα και να εξάγω κείμενο χρησιμοποιώντας τον κώδικα PHP;
use TesseractOCR\TesseractOCR;
$imagePath = '/path/to/your/image.jpg';
$tesseract = new TesseractOCR($imagePath);
$tesseract->setLanguage('eng'); // Set the desired language for text recognition
$text = $tesseract->run();
echo $text;
Χειρισμός εξόδου OCR μέσα σε εφαρμογές PHP
Η ανοιχτού κώδικα Tesseract OCR για τη βιβλιοθήκη PHP έχει συμπεριλάβει μια πολύ χρήσιμη λειτουργία για αποθήκευση και εργασία με το κείμενο εξόδου του OCR μέσα σε εφαρμογές PHP. Επιτρέπει την αποθήκευση του κειμένου σε ορισμένες δημοφιλείς μορφές όπως PDF, TXT, HTML, Word και πολλά άλλα. Επιτρέπει τον χειρισμό του αναγνωρισμένου κειμένου που εξάγεται από την εικόνα. Ανάλογα με τις απαιτήσεις της αίτησής σας, ίσως χρειαστεί να επεξεργαστείτε περαιτέρω ή να αναλύσετε το εξαγόμενο κείμενο. Οι κοινές εργασίες περιλαμβάνουν επικύρωση δεδομένων, καθαρισμό κειμένου, ορθογραφικό έλεγχο, μορφοποίηση, ενοποίηση με άλλα συστήματα για προηγμένη επεξεργασία ή τροποποιήσεις για συγκεκριμένη γλώσσα. Οι προγραμματιστές λογισμικού μπορούν εύκολα να αναλύσουν μεγάλους όγκους δεδομένων κειμένου που εξάγονται από έγγραφα, ροές μέσων κοινωνικής δικτύωσης ή σχόλια πελατών για να αντλήσουν πληροφορίες, ανάλυση συναισθήματος ή μοντελοποίηση θεμάτων.
Ανάκτηση δεδομένων εικόνας, μέγεθος και αποθήκευση σε μορφή PDF μέσω PHP API
//Using Imagick
$data = $img->getImageBlob();
$size = $img->getImageLength();
//Using GD
ob_start();
// Note that you can use any format supported by tesseract
imagepng($img, null, 0);
$size = ob_get_length();
$data = ob_get_clean();
$ocr = new TesseractOCR();
$ocr->imageData($data, $size);
$ocr->run();
// Save the Output to PDF file
echo (new TesseractOCR('img.png'))
->configFile('pdf')
->setOutputFile('/PATH_TO_MY_OUTPUTFILE/searchable.pdf')
->run();