API Python Sumber Terbuka untuk Mengintegrasikan Keupayaan OCR
Pustaka Python Sumber Terbuka yang membolehkan pembangun perisian menyepadukan dengan mudah keupayaan pengecaman aksara optik (OCR) ke dalam aplikasi mereka.
PaddleOCR ialah perpustakaan Python sumber terbuka yang berkuasa yang membolehkan pembangun perisian menyepadukan dengan mudah keupayaan pengecaman aksara optik (OCR) ke dalam aplikasi Python mereka. Ia dibina di atas PaddlePaddle, platform pembelajaran dalam sumber terbuka, dan menggunakan model pembelajaran mendalam yang terkini untuk mencapai ketepatan dan prestasi yang tinggi. PaddleOCR memudahkan proses OCR dengan menyediakan API peringkat tinggi yang menghilangkan banyak butiran peringkat rendah, memudahkan pembangun menambahkan keupayaan OCR pada aplikasi mereka.
PaddleOCR telah menyediakan sokongan lengkap untuk pelbagai bahasa dan skrip. Pada masa ini ia menyokong 80+ bahasa yang berbeza, termasuk Arab, Cina, Inggeris, Perancis, Jerman, Jepun, Korea, Rusia, Sepanyol dan banyak lagi. Ini menjadikannya alat yang berharga untuk pembangun yang perlu bekerja dengan kandungan berbilang bahasa. Sebagai tambahan kepada keupayaan OCR yang berkuasa, perpustakaan ini juga termasuk beberapa utiliti berguna untuk bekerja dengan imej dan teks. Sebagai contoh, ia termasuk alat untuk prapemprosesan imej, seperti deskewing dan penduaan, serta alatan pasca pemprosesan untuk meningkatkan ketepatan output OCR.
PaddleOCR menyediakan beberapa model OCR berbeza, setiap satu dioptimumkan untuk kes penggunaan yang berbeza. Contohnya, model Pengesanan Teks digunakan untuk mencari dan mengekstrak kawasan teks daripada imej, manakala model Pengecaman Teks digunakan untuk mengecam teks sebenar dalam kawasan tersebut. Terdapat juga ciri Model Ensemble yang membolehkan pembangun menggabungkan berbilang model untuk mencapai ketepatan yang lebih tinggi. Secara keseluruhan, PaddleOCR ialah perpustakaan yang berkuasa dan mudah digunakan untuk menambahkan keupayaan OCR pada aplikasi Python anda. Sokongannya untuk pelbagai bahasa dan skrip, serta model yang boleh disesuaikan dan alatan pasca pemprosesan, menjadikannya alat yang berharga untuk pembangun yang bekerja dengan OCR.
Bermula dengan PaddleOCR
Cara yang disyorkan untuk memasang PaddleOCR adalah menggunakan pip. Sila gunakan arahan berikut untuk pemasangan yang lancar
Pasang PaddleOCR melalui pip
Install PaddleOCR via pip
pip install paddleocr
Anda juga boleh memasangnya secara manual; muat turun fail keluaran terkini terus daripada repositori GitHub.
Pengecaman Teks Imej melalui API PaddleOCR
Pengecaman teks imej ialah proses mengekstrak teks daripada imej. Ia adalah teknik yang berguna untuk pelbagai aplikasi seperti pengimbasan dokumen, pendigitalan dan OCR (Pengecaman Aksara Optik). API OCR (Optical Character Recognition) sumber terbuka menyediakan satu set model OCR tercanggih yang boleh mengecam teks daripada pelbagai imej, termasuk dokumen yang diimbas, tangkapan skrin dan gambar. Perpustakaan menyokong beberapa ciri penting yang berkaitan dengan pengecaman teks imej seperti memuatkan imej, Memulakan model OCR, mengenal pasti kawasan teks dalam imej, Mengenali teks daripada imej, mengekstrak teks daripada hasilnya dan banyak lagi. Contoh berikut menunjukkan cara mengenali teks daripada imej di dalam aplikasi Python.
Lakukan Pengecaman Teks Imej dalam Projek Python
import paddleocr
ocr = paddleocr.OCR()
# load an image using the PIL
from PIL import Image
image = Image.open('example.jpg')
result = ocr.ocr(image)
# access the recognized text
for line in result:
print(line[1][0])
print(line[1][1])
Pengecaman Dokumen OCR menggunakan API Python
Pengiktirafan dokumen telah menjadi salah satu bidang penyelidikan yang menonjol untuk OCR. Dokumen digunakan hampir setiap hari dalam kehidupan kita. Apabila pembangun perisian menggunakan OCR pada dokumen, ia boleh mendapatkan maklumat penting, mendapatkan semula medan borang, menganalisis reka letak, menyimpan secara digital dan juga untuk membaca manuskrip lama. Pustaka PaddleOCR sumber terbuka membolehkan pembangun perisian memuatkan pelbagai jenis dokumen, melaksanakan operasi OCR dan mengecam serta mengekstrak teks daripadanya menggunakan kod Python. Pengecaman teks adalah sangat tepat dan perpustakaan boleh mengesan aksara dan ruang khas dengan mudah dengan tepat.
Lakukan OCR Document RecognitionF menggunakan Python API
img_path = './input_images/11-document-1.jpg'
result = ocr.ocr(img_path)
//Displaying the output.
Sokongan Pengecaman Jadual dalam Apl Python
Pustaka PaddleOCR sumber terbuka membolehkan pembangun perisian mengenali data jadual di dalam aplikasi Python mereka. Pengecaman jadual terutamanya mengandungi tiga model, pengesanan teks baris tunggal-DB, pengecaman teks baris tunggal-CRNN dan struktur jadual serta ramalan koordinat sel-SLANet. Contoh berikut menunjukkan cara mengenali imej yang mengandungi jadual. Contoh berikut menunjukkan cara menggunakan kaedah draw_ocr yang mengambil imej, kotak sempadan, teks, markah dan laluan ke fail fon. Ia mengembalikan imej dengan kotak sempadan dan teks yang dikesan. Anda boleh memaparkan imej menggunakan kaedah tayangan.
Muat Imej dan Kesan Teks di dalamnya melalui API Python
from paddleocr import PaddleOCR, draw_ocr
# Load the image that contains the table.
# Load the image
img_path = 'table_image.png'
with open(img_path, 'rb') as f:
img = f.read()
# Create an instance of the PaddleOCR object
ocr = PaddleOCR()
# Draw the bounding boxes around the detected table cells
boxes = [line[0] for line in result]
scores = [line[1] for line in result]
texts = [line[2][0] for line in result]
im_show = draw_ocr(img, boxes, texts, scores, font_path='arial.ttf')
im_show.show()