API Python Sumber Terbuka untuk Mengintegrasikan Kemampuan OCR
Pustaka Python Sumber Terbuka yang memungkinkan pengembang perangkat lunak dengan mudah mengintegrasikan kemampuan pengenalan karakter optik (OCR) ke dalam aplikasi mereka.
PaddleOCR adalah pustaka Python sumber terbuka yang kuat yang memungkinkan pengembang perangkat lunak dengan mudah mengintegrasikan kemampuan pengenalan karakter optik (OCR) ke dalam aplikasi Python mereka. Itu dibangun di atas PaddlePaddle, platform pembelajaran mendalam sumber terbuka, dan menggunakan model pembelajaran mendalam yang canggih untuk mencapai akurasi dan kinerja tinggi. PaddleOCR menyederhanakan proses OCR dengan menyediakan API tingkat tinggi yang mengabstraksi banyak detail tingkat rendah, sehingga memudahkan pengembang untuk menambahkan kemampuan OCR ke aplikasi mereka.
PaddleOCR telah memberikan dukungan lengkap untuk berbagai bahasa dan skrip. Saat ini mendukung 80+ bahasa berbeda, termasuk Arab, Cina, Inggris, Prancis, Jerman, Jepang, Korea, Rusia, Spanyol, dan banyak lainnya. Hal ini menjadikannya alat yang berharga bagi pengembang yang perlu bekerja dengan konten multibahasa. Selain kemampuan OCR yang kuat, perpustakaan ini juga menyertakan sejumlah utilitas berguna untuk bekerja dengan gambar dan teks. Misalnya, ini mencakup alat untuk prapemrosesan gambar, seperti deskewing dan binarisasi, serta alat pascapemrosesan untuk meningkatkan akurasi keluaran OCR.
PaddleOCR menyediakan beberapa model OCR berbeda, masing-masing dioptimalkan untuk kasus penggunaan berbeda. Misalnya, model Deteksi Teks digunakan untuk mencari dan mengekstrak wilayah teks dari gambar, sedangkan model Pengenalan Teks digunakan untuk mengenali teks sebenarnya dalam wilayah tersebut. Ada juga fitur Model Ensemble yang memungkinkan pengembang menggabungkan beberapa model untuk mencapai akurasi yang lebih tinggi. Secara keseluruhan, PaddleOCR adalah perpustakaan yang kuat dan mudah digunakan untuk menambahkan kemampuan OCR ke aplikasi Python Anda. Dukungannya terhadap berbagai bahasa dan skrip, serta model dan alat pascapemrosesan yang dapat disesuaikan, menjadikannya alat yang berharga bagi pengembang yang bekerja dengan OCR.
Memulai PaddleOCR
Cara yang disarankan untuk menginstal PaddleOCR adalah menggunakan pip. Silakan gunakan perintah berikut untuk kelancaran instalasi
Instal PaddleOCR melalui pip
Install PaddleOCR via pip
pip install paddleocr
Anda juga dapat menginstalnya secara manual; unduh file rilis terbaru langsung dari repositori GitHub.
Pengenalan Teks Gambar melalui PaddleOCR API
Pengenalan teks gambar adalah proses mengekstraksi teks dari gambar. Ini adalah teknik yang berguna untuk berbagai aplikasi seperti pemindaian dokumen, digitalisasi, dan OCR (Optical Character Recognition). API OCR (Pengenalan Karakter Optik) sumber terbuka menyediakan serangkaian model OCR canggih yang dapat mengenali teks dari berbagai gambar, termasuk dokumen yang dipindai, tangkapan layar, dan foto. Pustaka mendukung beberapa fitur penting terkait pengenalan teks gambar seperti memuat gambar, Inisialisasi model OCR, mengidentifikasi wilayah teks dalam gambar, Mengenali teks dari gambar, mengekstrak teks dari hasil, dan masih banyak lagi. Contoh berikut menunjukkan cara mengenali teks dari gambar di dalam aplikasi Python.
Lakukan Pengenalan Teks Gambar di dalam Proyek Python
import paddleocr
ocr = paddleocr.OCR()
# load an image using the PIL
from PIL import Image
image = Image.open('example.jpg')
result = ocr.ocr(image)
# access the recognized text
for line in result:
print(line[1][0])
print(line[1][1])
Pengenalan Dokumen OCR menggunakan Python API
Pengenalan dokumen telah menjadi salah satu bidang penelitian terkemuka untuk OCR. Dokumen digunakan hampir setiap hari dalam kehidupan kita. Ketika pengembang perangkat lunak menerapkan OCR pada suatu dokumen, ia dapat mengambil informasi penting, mengambil bidang formulir, menganalisis tata letak, menyimpannya secara digital dan juga untuk membaca naskah lama. Pustaka PaddleOCR sumber terbuka memungkinkan pengembang perangkat lunak memuat berbagai jenis dokumen, melakukan operasi OCR, dan mengenali serta mengekstrak teks dari dokumen tersebut menggunakan kode Python. Pengenalan teks sangat akurat dan perpustakaan dapat dengan mudah mendeteksi karakter dan spasi khusus secara akurat.
Lakukan Pengenalan Dokumen OCR menggunakan Python API
img_path = './input_images/11-document-1.jpg'
result = ocr.ocr(img_path)
//Displaying the output.
Dukungan Pengenalan Tabel di dalam Aplikasi Python
Pustaka PaddleOCR sumber terbuka memungkinkan pengembang perangkat lunak mengenali data tabel di dalam aplikasi Python mereka. Pengenalan tabel terutama berisi tiga model, deteksi teks baris tunggal-DB, pengenalan teks baris tunggal-CRNN dan struktur tabel serta prediksi koordinat sel-SLANet. Contoh berikut menunjukkan cara mengenali gambar yang berisi tabel. Contoh berikut menunjukkan cara menggunakan metode draw_ocr yang mengambil gambar, kotak pembatas, teks, skor, dan jalur ke file font. Ini mengembalikan gambar dengan kotak pembatas dan teks yang terdeteksi. Anda dapat menampilkan gambar menggunakan metode show.
Muat Gambar dan Deteksi Teks di dalamnya melalui Python API
from paddleocr import PaddleOCR, draw_ocr
# Load the image that contains the table.
# Load the image
img_path = 'table_image.png'
with open(img_path, 'rb') as f:
img = f.read()
# Create an instance of the PaddleOCR object
ocr = PaddleOCR()
# Draw the bounding boxes around the detected table cells
boxes = [line[0] for line in result]
scores = [line[1] for line in result]
texts = [line[2][0] for line in result]
im_show = draw_ocr(img, boxes, texts, scores, font_path='arial.ttf')
im_show.show()