1. Προϊόντα
  2.   OCR
  3.   Python
  4.   PaddleOCR
 
  

API Python ανοιχτού κώδικα για ενσωμάτωση δυνατοτήτων OCR

Βιβλιοθήκη Python ανοιχτού κώδικα που επιτρέπει στους προγραμματιστές λογισμικού να ενσωματώνουν εύκολα τις δυνατότητες οπτικής αναγνώρισης χαρακτήρων (OCR) στις εφαρμογές τους.

Το PaddleOCR είναι μια ισχυρή βιβλιοθήκη Python ανοιχτού κώδικα που επιτρέπει στους προγραμματιστές λογισμικού να ενσωματώνουν εύκολα τις δυνατότητες οπτικής αναγνώρισης χαρακτήρων (OCR) στις εφαρμογές Python τους. Είναι χτισμένο πάνω στο PaddlePaddle, μια πλατφόρμα βαθιάς εκμάθησης ανοιχτού κώδικα, και χρησιμοποιεί μοντέλα βαθιάς εκμάθησης τελευταίας τεχνολογίας για την επίτευξη υψηλής ακρίβειας και απόδοσης. Το PaddleOCR απλοποιεί τη διαδικασία OCR παρέχοντας ένα API υψηλού επιπέδου που αφαιρεί πολλές από τις λεπτομέρειες χαμηλού επιπέδου, διευκολύνοντας τους προγραμματιστές να προσθέσουν δυνατότητες OCR στις εφαρμογές τους.

Το PaddleOCR έχει παράσχει πλήρη υποστήριξη για ένα ευρύ φάσμα γλωσσών και σεναρίων. Προς το παρόν υποστηρίζει 80+ διαφορετικές γλώσσες, όπως αραβικά, κινέζικα, αγγλικά, γαλλικά, γερμανικά, ιαπωνικά, κορεάτικα, ρωσικά, ισπανικά και πολλές άλλες. Αυτό το καθιστά ένα πολύτιμο εργαλείο για προγραμματιστές που πρέπει να εργαστούν με πολύγλωσσο περιεχόμενο. Εκτός από τις ισχυρές δυνατότητες OCR, η βιβλιοθήκη περιλαμβάνει επίσης μια σειρά από χρήσιμα βοηθητικά προγράμματα για την εργασία με εικόνες και κείμενο. Για παράδειγμα, περιλαμβάνει εργαλεία για προεπεξεργασία εικόνας, όπως αποσκλήρυνση και δυαδοποίηση, καθώς και εργαλεία μετα-επεξεργασίας για τη βελτίωση της ακρίβειας της εξόδου OCR.

Το PaddleOCR παρέχει πολλά διαφορετικά μοντέλα OCR, το καθένα βελτιστοποιημένο για διαφορετικές περιπτώσεις χρήσης. Για παράδειγμα, το μοντέλο ανίχνευσης κειμένου χρησιμοποιείται για τον εντοπισμό και την εξαγωγή περιοχών κειμένου από μια εικόνα, ενώ το μοντέλο αναγνώρισης κειμένου χρησιμοποιείται για την αναγνώριση του πραγματικού κειμένου σε αυτές τις περιοχές. Υπάρχει επίσης μια λειτουργία Model Ensemble που επιτρέπει στους προγραμματιστές να συνδυάζουν πολλά μοντέλα για να επιτύχουν ακόμη μεγαλύτερη ακρίβεια. Συνολικά, το PaddleOCR είναι μια ισχυρή και εύχρηστη βιβλιοθήκη για την προσθήκη δυνατοτήτων OCR στις εφαρμογές Python σας. Η υποστήριξή του για ένα ευρύ φάσμα γλωσσών και σεναρίων, καθώς και τα προσαρμόσιμα μοντέλα και τα εργαλεία μεταεπεξεργασίας, το καθιστούν πολύτιμο εργαλείο για προγραμματιστές που εργάζονται με OCR.

Previous Next

Ξεκινώντας με το PaddleOCR

Ο προτεινόμενος τρόπος εγκατάστασης του PaddleOCR είναι η χρήση του pip. Χρησιμοποιήστε την ακόλουθη εντολή για ομαλή εγκατάσταση

Εγκαταστήστε το PaddleOCR μέσω pip

 

Install PaddleOCR via pip

 pip install paddleocr 

Μπορείτε επίσης να το εγκαταστήσετε χειροκίνητα. κατεβάστε τα αρχεία τελευταίας έκδοσης απευθείας από το αποθετήριο GitHub.

Αναγνώριση κειμένου εικόνας μέσω PaddleOCR API

Η αναγνώριση κειμένου εικόνας είναι η διαδικασία εξαγωγής κειμένου από εικόνες. Είναι μια χρήσιμη τεχνική για διάφορες εφαρμογές όπως σάρωση εγγράφων, ψηφιοποίηση και OCR (οπτική αναγνώριση χαρακτήρων). Το ανοιχτού κώδικα OCR (Optical Character Recognition) API παρέχει ένα σύνολο μοντέλων OCR τελευταίας τεχνολογίας που μπορούν να αναγνωρίσουν κείμενο από διάφορες εικόνες, συμπεριλαμβανομένων σαρωμένων εγγράφων, στιγμιότυπων οθόνης και φωτογραφιών. Η βιβλιοθήκη υποστηρίζει πολλές σημαντικές λειτουργίες που σχετίζονται με την αναγνώριση κειμένου εικόνας, όπως η φόρτωση εικόνων, η προετοιμασία ενός μοντέλου OCR, η αναγνώριση περιοχής κειμένου στην εικόνα, η αναγνώριση κειμένου από την εικόνα, η εξαγωγή κειμένου από το αποτέλεσμα και πολλά άλλα. Το παρακάτω παράδειγμα δείχνει πώς να αναγνωρίζετε κείμενο από μια εικόνα μέσα σε εφαρμογές Python.

Εκτελέστε αναγνώριση κειμένου εικόνας μέσα σε έργα Python

import paddleocr
ocr = paddleocr.OCR()

# load an image using the PIL
from PIL import Image

image = Image.open('example.jpg')
result = ocr.ocr(image)

# access the recognized text

for line in result:
    print(line[1][0])
    print(line[1][1])

Αναγνώριση εγγράφων OCR με χρήση Python API

Η αναγνώριση εγγράφων υπήρξε ένας από τους σημαντικότερους τομείς έρευνας για το OCR. Τα έγγραφα χρησιμοποιούνται σχεδόν καθημερινά στη ζωή μας. Όταν οι προγραμματιστές λογισμικού εφαρμόζουν OCR σε ένα έγγραφο, μπορεί να ανακτήσει σημαντικές πληροφορίες, να ανακτήσει πεδία φόρμας, να αναλύσει τη διάταξη, να αποθηκεύσει ψηφιακά και επίσης να διαβάσει παλιά χειρόγραφα. Η βιβλιοθήκη ανοιχτού κώδικα PaddleOCR επιτρέπει στους προγραμματιστές λογισμικού να φορτώνουν διάφορους τύπους εγγράφων, να εκτελούν λειτουργίες OCR και να αναγνωρίζουν και να εξάγουν κείμενο από αυτό χρησιμοποιώντας κώδικα Python. Η αναγνώριση κειμένου είναι πολύ ακριβής και η βιβλιοθήκη μπορεί εύκολα να εντοπίσει με ακρίβεια ειδικούς χαρακτήρες και κενά.

Εκτέλεση OCR Document RecognitionF χρησιμοποιώντας Python API

img_path = './input_images/11-document-1.jpg'
result = ocr.ocr(img_path)

//Displaying the output.

Υποστήριξη αναγνώρισης πίνακα εντός εφαρμογών Python

Η βιβλιοθήκη ανοιχτού κώδικα PaddleOCR επιτρέπει στους προγραμματιστές λογισμικού να αναγνωρίζουν τα δεδομένα του πίνακα μέσα στις εφαρμογές Python τους. Η αναγνώριση πίνακα περιέχει κυρίως τρία μοντέλα, ανίχνευση κειμένου μίας γραμμής-DB, αναγνώριση κειμένου μίας γραμμής-CRNN και δομή πίνακα καθώς και πρόβλεψη συντεταγμένων κελιών-SLANet. Το παρακάτω παράδειγμα δείχνει πώς να αναγνωρίσετε την εικόνα που περιέχει τον πίνακα. Το παρακάτω παράδειγμα δείχνει πώς να χρησιμοποιήσετε τη μέθοδο draw_ocr που λαμβάνει την εικόνα, τα πλαίσια οριοθέτησης, τα κείμενα, τις παρτιτούρες και τη διαδρομή προς το αρχείο γραμματοσειράς. Επιστρέφει μια εικόνα με τα πλαίσια οριοθέτησης και το κείμενο που έχει εντοπιστεί. Μπορείτε να εμφανίσετε την εικόνα χρησιμοποιώντας τη μέθοδο εμφάνισης.

Φορτώστε μια εικόνα και εντοπίστε κείμενο μέσα σε αυτήν μέσω Python API

from paddleocr import PaddleOCR, draw_ocr

# Load the image that contains the table.

# Load the image
img_path = 'table_image.png'
with open(img_path, 'rb') as f:
    img = f.read()

# Create an instance of the PaddleOCR object
ocr = PaddleOCR()


# Draw the bounding boxes around the detected table cells

boxes = [line[0] for line in result]
scores = [line[1] for line in result]
texts = [line[2][0] for line in result]
im_show = draw_ocr(img, boxes, texts, scores, font_path='arial.ttf')
im_show.show()

 Ελληνικά