1. Προϊόντα
  2.   OCR
  3.   PHP
  4.   OcrPHP
 
  

Βιβλιοθήκη PHP για Εξαγωγή Κειμένου από Εικόνες σε Πολλές Γλώσσες

Το ανοιχτού κώδικα PHP API Αναγνώρισης Οπτικών Χαρακτήρων (OCR) επιτρέπει τη Φόρτωση & Σάρωση Εικόνων ή Εγγράφων, την Αναγνώριση & Εξαγωγή Κειμένου από Εικόνες σε Πολλές Γλώσσες μέσα σε Εφαρμογές PHP.

Η τεχνολογία Optical Character Recognition (OCR) έχει γίνει ένα απαραίτητο εργαλείο για την εξαγωγή κειμένου από εικόνες και έγγραφα στη σύγχρονη εποχή. Με την άνοδο του ψηφιακού μετασχηματισμού, η ανάγκη για αποδοτικές και ακριβείς λύσεις OCR δεν ήταν ποτέ πιο επείγουσα. Το OcrPHP είναι μια πολύ ισχυρή ανοιχτού κώδικα βιβλιοθήκη OCR που ενδυναμώνει τους προγραμματιστές λογισμικού να δημιουργούν αξιόπιστες και κλιμακώσιμες εφαρμογές OCR. Είναι μια βιβλιοθήκη OCR βασισμένη σε PHP που χρησιμοποιεί τη μηχανή Tesseract OCR, μια ευρέως χρησιμοποιούμενη και πολύ εκτιμημένη τεχνολογία OCR που αναπτύχθηκε από τη Google. Η βιβλιοθήκη περιλαμβάνει πολλές δυνατότητες, όπως σάρωση εγγράφων, εξαγωγή κειμένου από εικόνες, εξαγωγή κειμένου σε συγκεκριμένη γλώσσα, εξαγωγή κειμένου από PDF και πολλά άλλα.

Η βιβλιοθήκη OcrPHP περιλαμβάνει προχωρημένες τεχνικές προεπεξεργασίας εικόνας, όπως διόρθωση κλίσης (deskewing), αφαίρεση θολώσεων (despeckling) και δυαδικοποίηση (binarization), για τη βελτίωση της ακρίβειας του OCR. Υποστηρίζει την εκτέλεση OCR σε πολλές γλώσσες, συμπεριλαμβανομένων των Αγγλικών, Ισπανικών, Γαλλικών, Γερμανικών, Ιταλικών, Πορτογαλικών, Κινέζικων, Ιαπωνικών και πολλών άλλων. Οι προγραμματιστές μπορούν να προσαρμόσουν τη διαδικασία OCR ρυθμίζοντας παραμέτρους όπως η γλώσσα, η λειτουργία τμηματοποίησης σελίδας και οι ρυθμίσεις της μηχανής OCR. Η βιβλιοθήκη διαθέτει ισχυρούς μηχανισμούς διαχείρισης σφαλμάτων για να εξασφαλίζει ότι οι λειτουργίες OCR εκτελούνται ομαλά και αποδοτικά. Με δυνατότητες όπως υποστήριξη πολλαπλών γλωσσών, προχωρημένη σάρωση εικόνας, προσαρμοσμένες ρυθμίσεις και απλή ενσωμάτωση, επιτρέπει στους προγραμματιστές να δημιουργούν ευέλικτα εργαλεία αναγνώρισης κειμένου με ελάχιστη προσπάθεια και χαμηλό κόστος.

Previous Next

Ξεκινώντας με το OcrPHP

Ο συνιστώμενος τρόπος εγκατάστασης του OcrPHP είναι μέσω Composer. Παρακαλούμε χρησιμοποιήστε την παρακάτω εντολή για μια ομαλή εγκατάσταση.

Εγκατάσταση OcrPHP μέσω Composer

composer require fizzday/ocrphp

Εγκατάσταση OcrPHP μέσω Github

git clone https://github.com/fizzday/OcrPHP.git 

Μπορείτε να κατεβάσετε τη μεταγλωττισμένη κοινόχρηστη βιβλιοθήκη από το αποθετήριο Github.

Αναγνώριση και Εξαγωγή Κειμένου από Εικόνα μέσω PHP

Η ανοιχτού κώδικα βιβλιοθήκη OcrPHP διευκολύνει το λογισμικό να φορτώνει διάφορους τύπους εικόνων και να εξάγει κείμενο από αυτές με λίγες μόνο γραμμές κώδικα PHP. Ακολουθεί ένα πολύ απλό παράδειγμα που χρησιμοποιεί τη βιβλιοθήκη Imagick για να φορτώσει ένα αρχείο εικόνας και να δημιουργήσει μια παρουσία της κλάσης OcrPHP. Οι προγραμματιστές μπορούν στη συνέχεια να ορίσουν τη γλώσσα και τις ρυθμίσεις της μηχανής OCR πριν εκτελέσουν το OCR στην εικόνα χρησιμοποιώντας τη μέθοδο recognize(). Τέλος, εκτυπώνει το εξαγόμενο κείμενο με τη μέθοδο getText().

Πώς να Εξάγετε Κείμενο από Εικόνα χρησιμοποιώντας τη Βιβλιοθήκη PHP;

require_once 'OcrPHP/autoload.php';

// Φόρτωση του αρχείου εικόνας
$image = new Imagick('path/to/image.jpg');

// Δημιουργία μιας παρουσία της κλάσης OcrPHP
$ocr = new OcrPHP();

// Ορισμός της γλώσσας και των ρυθμίσεων της μηχανής OCR
$ocr->setLanguage('eng');
$ocr->setPageSegmentationMode(OcrPHP::PSM_SINGLE_BLOCK);

// Εκτέλεση OCR στην εικόνα
$result = $ocr->recognize($image);

// Εκτύπωση του εξαγόμενου κειμένου
echo $result->getText();

Αναγνώριση Κειμένου σε Συγκεκριμένη Γλώσσα μέσω PHP

Η βιβλιοθήκη OcrPHP παρέχει υποστήριξη για πολλές γλώσσες ώστε να εκτελεί λειτουργίες OCR μέσα σε εφαρμογές PHP. Είτε το κείμενό σας είναι στα Αγγλικά, Κινέζικα ή οποιαδήποτε άλλη υποστηριζόμενη γλώσσα, το OcrPHP μπορεί να το διαχειριστεί άψογα. Για να εξάγετε κείμενο σε συγκεκριμένη γλώσσα, περάστε τον κωδικό γλώσσας ως παράμετρο. Βεβαιωθείτε ότι το αντίστοιχο μοντέλο γλώσσας Tesseract είναι εγκατεστημένο. Το παρακάτω παράδειγμα δείχνει πώς οι προγραμματιστές μπορούν να εξάγουν κείμενο από εικόνες στην Κινέζικη γλώσσα μέσα σε εφαρμογές PHP.

Πώς να Εξάγετε Κείμενο από Εικόνα στην Κινέζικη Γλώσσα μέσω PHP;

require 'vendor/autoload.php';

use Fizzday\Ocr\Ocr;

$imagePath = __DIR__ . '/example-image-chinese.png';

$ocr = new Ocr();

// Εξαγωγή κειμένου στα Κινέζικα
$text = $ocr->scan($imagePath, 'chi_sim'); // Χρησιμοποιήστε 'eng' για Αγγλικά

echo "Εξαγόμενο Κείμενο (Κινέζικα): \n" . $text;

Επεξεργασία Μαζικής Επεξεργασίας και Αυτοματοποίηση OCR μέσω PHP

Για προγραμματιστές λογισμικού που δημιουργούν εφαρμογές επεξεργασίας εγγράφων, η μαζική επεξεργασία μπορεί να είναι μια πολύτιμη λειτουργία. Το ανοιχτού κώδικα OcrPHP διευκολύνει τους προγραμματιστές να διασχίζουν έναν φάκελο με αρχεία εικόνας και να εξάγουν κείμενο από κάθε ένα αυτόματα. Αυτό είναι ιδανικό για αυτοματοποίηση εργασιών όπως σάρωση τιμολογίων, αποδείξεων ή βιβλίων. Ακολουθεί ένα πολύ χρήσιμο παράδειγμα που σαρώνει όλα τα αρχεία .png στον καθορισμένο φάκελο, εξάγει κείμενο από το καθένα και το εκτυπώνει. Μπορείτε να επεκτείνετε τον κώδικα ώστε να αποθηκεύει το αποτέλεσμα σε αρχείο ή βάση δεδομένων, καθιστώντας το ένα ισχυρό εργαλείο για επεξεργασία εγγράφων.

Πώς να Εξάγετε Κείμενο από Πολλαπλές Εικόνες μέσω της Βιβλιοθήκης PHP;

require 'vendor/autoload.php';

use Fizzday\Ocr\Ocr;

$directory = __DIR__ . '/images/';
$ocr = new Ocr();

foreach (glob($directory . '*.png') as $imagePath) {
    $text = $ocr->scan($imagePath);
    echo "Κείμενο από {$imagePath}: \n" . $text . "\n\n";
}

Προσαρμοσμένη Διαμόρφωση & Υποστήριξη Ενσωμάτωσης

Η ανοιχτού κώδικα OcrPHP είναι μια ευέλικτη και φιλική προς τον προγραμματιστή βιβλιοθήκη που απλοποιεί την ενσωμάτωση λειτουργιών OCR σε έργα PHP. Η βιβλιοθήκη επιτρέπει τον καθορισμό προσαρμοσμένων ρυθμίσεων Tesseract, όπως γλώσσα, λειτουργία τμηματοποίησης σελίδας και παράμετροι προεπεξεργασίας εικόνας, προσφέροντας ευελιξία για την προσαρμογή των αποτελεσμάτων OCR.

 Ελληνικά