Open Source Python API to Build Smart OCR Apps
Free Python OCR API to Detect and Recognize Text from Images, Including Natural Scenes, Forms, and Scanned Documents inside Python Apps.
Τι είναι το MonkeyOCR;
Το MonkeyOCR είναι ένα προηγμένο, ολοκληρωμένο σύστημα Οπτικής Αναγνώρισης Χαρακτήρων (OCR) που βασίζεται σε βαθιά μάθηση, σχεδιασμένο για προγραμματιστές λογισμικού που αναζητούν μια ισχυρή και ευέλικτη λύση. Αναπτύχθηκε από τον Yuliang Liu· αυτή η βιβλιοθήκη επιτρέπει την ακριβή ανίχνευση και αναγνώριση κειμένου από ποικίλες πηγές, συμπεριλαμβανομένων φυσικών σκηνών, φορμών και σαρωμένων εγγράφων. Η αρθρωτή και κλιμακώσιμη αρχιτεκτονική της συνδυάζει τις πιο σύγχρονες τεχνικές βαθιάς μάθησης με μια αξιόπιστη γραμμή επεξεργασίας, καθιστώντας την εξαιρετικά κατάλληλη για πραγματικές εργασίες αναγνώρισης κειμένου. Οι πρακτικές εφαρμογές κυμαίνονται από σάρωση τιμολογίων και ανάγνωση ταυτοτήτων έως εξαγωγή κειμένου από πινακίδες και δημιουργία πολυγλωσσικών pipelines OCR ή PDF‑to‑data.
Σχεδιασμένο για μέγιστη ευελιξία, το MonkeyOCR δίνει τη δυνατότητα στους μηχανικούς λογισμικού να δημιουργούν έξυπνα συστήματα επεξεργασίας εγγράφων ανεξάρτητα από εμπορικές μηχανές OCR. Διαθέτει μια σειρά προχωρημένων χαρακτηριστικών, όπως πλήρως αρθρωτή γραμμή OCR, απλή ρύθμιση μέσω αρχείου YAML και αποδοτική υποστήριξη παρτίδας. Το σύστημα παρέχει ακριβή εξαγωγή πλαισίων κειμένου με συντεταγμένες, χρησιμοποιώντας μοντέλα όπως το DBNet++ για ανίχνευση και το CRNN για αναγνώριση, όλα εντός ενός ρυθμιζόμενου πλαισίου προ‑και‑μετα‑επεξεργασίας. Αυτός ο συνδυασμός αρθρωτής σχεδίασης, υποστήριξης σύγχρονων μοντέλων και ευκολίας ρύθμισης καθιστά το MonkeyOCR ιδανικό για την κατασκευή σύνθετων, πραγματικών εφαρμογών—από αυτοματοποίηση εγγράφων σε επιχειρήσεις έως αναγνώριση κειμένου σε κινητές συσκευές.
Ξεκινώντας με το MonkeyOCR
Ο συνιστώμενος τρόπος εγκατάστασης του MonkeyOCR είναι μέσω pip. Παρακαλούμε χρησιμοποιήστε την παρακάτω εντολή για ομαλή εγκατάσταση.
Εγκατάσταση MonkeyOCR μέσω pip
pip install MonkeyOCR Εγκατάσταση MonkeyOCR μέσω GitHub
git clone https://github.com/Yuliang-Liu/MonkeyOCR.git Μπορείτε επίσης να το εγκαταστήσετε χειροκίνητα· κατεβάστε τα τελευταία αρχεία έκδοσης απευθείας από το αποθετήριο GitHub.
Εξαγωγή Κειμένου από Εικόνα Απόδειξης με Python
Το ανοιχτού κώδικα MonkeyOCR είναι ένα ολοκληρωμένο σύστημα Οπτικής Αναγνώρισης Χαρακτήρων (OCR) βασισμένο σε τεχνικές βαθιάς μάθησης. Οι προγραμματιστές λογισμικού που δημιουργούν εφαρμογές σάρωσης εγγράφων, ταυτοτήτων, αποδείξεων ή πινακίδων κυκλοφορίας μπορούν να ενσωματώσουν το MonkeyOCR απευθείας στη διαδικασία backend. Με την αρθρωτή του σχεδίαση, μπορείτε να χρησιμοποιήσετε μόνο το μοντέλο ανίχνευσης ή να το συνδυάσετε με την αναγνώριση για εξαγωγή δομημένου κειμένου από εικόνες. Ακολουθεί ένα απλό παράδειγμα που δείχνει πώς να εξάγετε κείμενο από μια εικόνα απόδειξης χρησιμοποιώντας το Python API.
Πώς να Εξάγετε Κείμενο από Εικόνα Απόδειξης μέσω του Python API;
from monkey_ocr.ocr_predict import OCRPredictor
ocr = OCRPredictor(det_model_path="weights/dbnet.pth", rec_model_path="weights/crnn.pth")
results = ocr.predict("receipt.jpg")
for line in results:
print(line['text'])
Προσαρμοσμένες Διαδικασίες OCR για Συγκεκριμένες Περιπτώσεις Χρήσης
Ένα από τα μεγαλύτερα πλεονεκτήματα της ανοιχτής βιβλιοθήκης MonkeyOCR είναι η αρθρωτή της αρχιτεκτονική. Οι προγραμματιστές λογισμικού μπορούν να συνδυάσουν και να ταιριάξουν στοιχεία όπως μοντέλα ανίχνευσης, αναγνώρισης και ταξινόμησης ανάλογα με τις απαιτήσεις της εφαρμογής τους. Για παράδειγμα, μια εφαρμογή σάρωσης εγγράφων μπορεί να χρησιμοποιήσει ένα ελαφρύ μοντέλο όπως το DBNet για ανίχνευση και το CRNN για αναγνώριση, βελτιστοποιώντας τόσο την ταχύτητα όσο και την ακρίβεια.
Προσαρμοσμένες Διαδικασίες OCR μέσω Python API;
from monkey_ocr.ocr_predict import OCRPredictor
ocr = OCRPredictor(
det_model_path="weights/dbnet.pth",
rec_model_path="weights/crnn.pth"
)
results = ocr.predict("form_image.jpg")
for item in results:
print(item["text"], item["box"])
Ενσωμάτωση με Επιχειρηματικό Λογισμικό
Η ανοιχτή βιβλιοθήκη MonkeyOCR μπορεί επίσης να ενσωματωθεί σε επιχειρησιακές ροές εργασίας εγγράφων, όπως η αυτοματοποίηση εισαγωγής δεδομένων σε συστήματα ERP ή CRM. Οι προγραμματιστές λογισμικού μπορούν να εκτελούν το MonkeyOCR στο παρασκήνιο για σάρωση PDF ή εγγράφων βασισμένων σε εικόνες που ανεβάζουν οι χρήστες, εξάγοντας αυτόματα δομημένες πληροφορίες. Με τη ρύθμιση του MonkeyOCR μέσω ενός αρχείου config.yaml, οι ομάδες μπορούν να διατηρούν συνέπεια μεταξύ διαφορετικών αναπτύξεων.
Δημιουργία Αυτόματων Αναγνώστης Φορμών
Συνδυάζοντας την ανίχνευση κειμένου του MonkeyOCR με τα δεδομένα θέσης (πλαίσια οριοθέτησης), οι προγραμματιστές μπορούν να σχεδιάσουν έξυπνους αναγνώστες φορμών που εντοπίζουν πεδία (π.χ., “Όνομα”, “Ημερομηνία”, “Ποσό”) και εξάγουν τα αντίστοιχα δεδομένα. Αυτό είναι ιδανικό για φορολογικά έγγραφα, ιατρικές φόρμες ή έρευνες.