Open Source JavaScript API για προσθήκη και διαχείριση OCR σε εφαρμογές Ιστού
Μια κορυφαία δωρεάν βιβλιοθήκη JavaScript για προσθήκη λειτουργιών οπτικής αναγνώρισης χαρακτήρων (OCR) σε εφαρμογές Ιστού JS και μετατροπή εικόνων έντυπου ή χειρόγραφου κειμένου σε μηχάνημα αναγνώσιμο κείμενο δωρεάν.
Το Tesseract.js είναι μια πολύ χρήσιμη βιβλιοθήκη JavaScript ανοιχτού κώδικα που επιτρέπει στους προγραμματιστές λογισμικού να ενσωματώνουν τη λειτουργία οπτικής αναγνώρισης χαρακτήρων (OCR) στις εφαρμογές Ιστού τους με ελάχιστο κόπο και κόστος. Το OCR είναι η διαδικασία μετατροπής εικόνων έντυπου ή χειρόγραφου κειμένου σε κείμενο αναγνώσιμο από μηχανή. Το Tesseract.js είναι μια θύρα της δημοφιλούς μηχανής Tesseract OCR, η οποία αναπτύχθηκε αρχικά από τη Hewlett-Packard τη δεκαετία του 1980 και αργότερα συντηρήθηκε από την Google. Το Tesseract.js μπορεί να αναγνωρίσει περισσότερες από 100 γλώσσες, καθιστώντας το ένα ισχυρό εργαλείο για προγραμματιστές που θέλουν να προσθέσουν λειτουργικότητα OCR στις εφαρμογές ιστού τους.
Το Tesseract.js είναι πολύ εύκολο στον χειρισμό και μπορεί να χρησιμοποιηθεί για μια ποικιλία εργασιών, όπως η εξαγωγή κειμένου από σαρωμένα έγγραφα, αποδείξεις και επαγγελματικές κάρτες, η αυτοματοποίηση εργασιών εισαγωγής δεδομένων καθώς και η βελτίωση της λειτουργικότητας αναζήτησης σε εφαρμογές web. Ένα από τα βασικά πλεονεκτήματα του Tesseract.js είναι η ικανότητά του να αναγνωρίζει κείμενο ακόμα και όταν η εικόνα εισόδου είναι κακής ποιότητας ή ανάλυσης. Η βιβλιοθήκη χρησιμοποιεί αλγόριθμους μηχανικής μάθησης για να βελτιώσει την ακρίβεια των αποτελεσμάτων OCR. Μπορεί επίσης να εκτελέσει ανάλυση διάταξης σελίδας και να ανιχνεύσει περιοχές ενδιαφέροντος μέσα σε μια εικόνα.
Το Tesseract.js γίνεται δημοφιλές λόγω της ευκολίας χρήσης του καθώς και των ισχυρών δυνατοτήτων OCR και μπορεί να εκτελεστεί ομαλά είτε σε πρόγραμμα περιήγησης είτε σε διακομιστή με NodeJS. Παρέχει ένα απλό API που επιτρέπει στους προγραμματιστές λογισμικού να διαμορφώνουν επιλογές OCR, όπως γλώσσα, λειτουργία τμηματοποίησης σελίδων και χαρακτήρες στη λίστα επιτρεπόμενων. Η ικανότητά του να αναγνωρίζει κείμενο από εικόνες κακής ποιότητας και η υποστήριξη για πολλές γλώσσες το καθιστούν πολύτιμο εργαλείο για ένα ευρύ φάσμα εφαρμογών και εξαιρετική επιλογή για προγραμματιστές που θέλουν να προσθέσουν OCR στις εφαρμογές ιστού τους.
Ξεκινώντας με το Tesseract.js
Ο προτεινόμενος τρόπος εγκατάστασης του Tesseract.js είναι η χρήση npm. Χρησιμοποιήστε την ακόλουθη εντολή για ομαλή εγκατάσταση
Εγκατάσταση του Tesseract.jsvia npm
npm install tesseract.js
Μπορείτε επίσης να το εγκαταστήσετε χειροκίνητα. κατεβάστε τα αρχεία τελευταίας έκδοσης απευθείας από το αποθετήριο GitHub.
Μετατροπή εικόνας σε κείμενο μέσω JavaScript API
Η βιβλιοθήκη JavaScript ανοιχτού κώδικα Tesseract.js διευκολύνει τους προγραμματιστές λογισμικού να Εργάζονται με διάφορους τύπους εικόνων όπως BMP, JPG, PNG, PBM, WebP και πολλά άλλα. Η βιβλιοθήκη υποστηρίζει την εξαγωγή κειμένου από εικόνες για την αυτοματοποίηση της επεξεργασίας κειμένων σε εικόνες, αρχεία PDF και σαρωμένα έγγραφα. Το ακόλουθο παράδειγμα δείχνει πώς να φορτώσετε μια εικόνα και να εξαγάγετε κείμενο από αυτήν με μόνο μερικές γραμμές κώδικα. Το όρισμα γλώσσας χρησιμοποιείται για τον προσδιορισμό των εκπαιδευμένων δεδομένων γλώσσας που θα χρησιμοποιηθούν στην επεξεργασία εικόνων. Οι προγραμματιστές λογισμικού μπορούν να χρησιμοποιήσουν πολλές γλώσσες εδώ.
Πώς να μετατρέψετε εικόνα σε κείμενο χρησιμοποιώντας το JavaScript API;
Tesseract.recognize(
image,language,
{
logger: m => console.log(m)
}
)
.catch (err => {
console.error(err);
})
.then(result => {
console.log(result);
})
}
Ανάγνωση περιοχής εικόνας και εξαγωγή κειμένου μέσω JS API
Η βιβλιοθήκη JavaScript ανοιχτού κώδικα έχει συμπεριλάβει πολύ χρήσιμες λειτουργίες για την ανάγνωση μιας συγκεκριμένης περιοχής μέσα σε μια εικόνα και τη λήψη των δεδομένων της μέσα σε εφαρμογές JavaScript. Το API υποστηρίζει τη λήψη της περιοχής εικόνας και προσπαθεί να αναγνωρίσει κείμενο μέσα σε αυτήν την περιοχή χρησιμοποιώντας την εσωτερική ισχυρή μηχανή OCR. Τα ακόλουθα παραδείγματα δείχνουν πώς οι προγραμματιστές λογισμικού μπορούν να παρέχουν διεύθυνση URL στην εικόνα και το API μπορεί εύκολα να εντοπίσει και να αναγνωρίσει κείμενο στην επιλεγμένη περιοχή.
Ανάγνωση και αναγνώριση κειμένου σε επιλεγμένη περιοχή μιας εικόνας μέσω JS API
const { createWorker } = require('tesseract.js');
const worker = await createWorker();
const rectangle = { left: 0, top: 0, width: 500, height: 250 };
(async () => {
await worker.loadLanguage('eng');
await worker.initialize('eng');
const { data: { text } } = await worker.recognize('https://tesseract.projectnaptha.com/img/eng_bw.png', { rectangle });
console.log(text);
await worker.terminate();
})();