API Python Sumber Terbuka untuk Mengintegrasikan Kemampuan OCR

Pustaka Python Sumber Terbuka yang memungkinkan pengembang perangkat lunak dengan mudah mengintegrasikan kemampuan pengenalan karakter optik (OCR) ke dalam aplikasi mereka.

PaddleOCR adalah pustaka Python sumber terbuka yang kuat yang memungkinkan pengembang perangkat lunak dengan mudah mengintegrasikan kemampuan pengenalan karakter optik (OCR) ke dalam aplikasi Python mereka. Itu dibangun di atas PaddlePaddle, platform pembelajaran mendalam sumber terbuka, dan menggunakan model pembelajaran mendalam yang canggih untuk mencapai akurasi dan kinerja tinggi. PaddleOCR menyederhanakan proses OCR dengan menyediakan API tingkat tinggi yang mengabstraksi banyak detail tingkat rendah, sehingga memudahkan pengembang untuk menambahkan kemampuan OCR ke aplikasi mereka.

PaddleOCR telah memberikan dukungan lengkap untuk berbagai bahasa dan skrip. Saat ini mendukung 80+ bahasa berbeda, termasuk Arab, Cina, Inggris, Prancis, Jerman, Jepang, Korea, Rusia, Spanyol, dan banyak lainnya. Hal ini menjadikannya alat yang berharga bagi pengembang yang perlu bekerja dengan konten multibahasa. Selain kemampuan OCR yang kuat, perpustakaan ini juga menyertakan sejumlah utilitas berguna untuk bekerja dengan gambar dan teks. Misalnya, ini mencakup alat untuk prapemrosesan gambar, seperti deskewing dan binarisasi, serta alat pascapemrosesan untuk meningkatkan akurasi keluaran OCR.

PaddleOCR menyediakan beberapa model OCR berbeda, masing-masing dioptimalkan untuk kasus penggunaan berbeda. Misalnya, model Deteksi Teks digunakan untuk mencari dan mengekstrak wilayah teks dari gambar, sedangkan model Pengenalan Teks digunakan untuk mengenali teks sebenarnya dalam wilayah tersebut. Ada juga fitur Model Ensemble yang memungkinkan pengembang menggabungkan beberapa model untuk mencapai akurasi yang lebih tinggi. Secara keseluruhan, PaddleOCR adalah perpustakaan yang kuat dan mudah digunakan untuk menambahkan kemampuan OCR ke aplikasi Python Anda. Dukungannya terhadap berbagai bahasa dan skrip, serta model dan alat pascapemrosesan yang dapat disesuaikan, menjadikannya alat yang berharga bagi pengembang yang bekerja dengan OCR.

Sekilas

Ikhtisar fitur PaddleOCR.

Ikhtisar Fitur

Lakukan OCR
Tambahkan Kemampuan OCR
Mengenali teks Gambar
Mengonversi gambar teks
Teks Font yang Dikenali
Telusuri PDF
Bahasa Lainnya
Membuat aplikasi OCR
Simpan ke browser
Ekstrak Teks
Dukungan multi-threading

PaddleOCR

PaddleOCR mendukung format file gambar populer yang tercantum di bawah.

Pembaca

PNG, JPEG, BMP, TIFF, TGA, DICOM

Penulis

PNG, JPEG, BMP, TIFF

PaddleOCR

Kemandirian Platform

PaddleOCR dapat bekerja dengan .NET Framework 4.8 dan Python 2.7 ke atas.

Python 2.7 ke atas.

PaddleOCR

Memulai PaddleOCR

Cara yang disarankan untuk menginstal PaddleOCR adalah menggunakan pip. Silakan gunakan perintah berikut untuk kelancaran instalasi

Instal PaddleOCR melalui pip

 
Install PaddleOCR via pip
 pip install paddleocr 
Anda juga dapat menginstalnya secara manual; unduh file rilis terbaru langsung dari repositori GitHub.

`Pengenalan Teks Gambar melalui PaddleOCR API`

Pengenalan teks gambar adalah proses mengekstraksi teks dari gambar. Ini adalah teknik yang berguna untuk berbagai aplikasi seperti pemindaian dokumen, digitalisasi, dan OCR (Optical Character Recognition). API OCR (Pengenalan Karakter Optik) sumber terbuka menyediakan serangkaian model OCR canggih yang dapat mengenali teks dari berbagai gambar, termasuk dokumen yang dipindai, tangkapan layar, dan foto. Pustaka mendukung beberapa fitur penting terkait pengenalan teks gambar seperti memuat gambar, Inisialisasi model OCR, mengidentifikasi wilayah teks dalam gambar, Mengenali teks dari gambar, mengekstrak teks dari hasil, dan masih banyak lagi. Contoh berikut menunjukkan cara mengenali teks dari gambar di dalam aplikasi Python.

`Lakukan Pengenalan Teks Gambar di dalam Proyek Python`

import paddleocr
ocr = paddleocr.OCR()

# load an image using the PIL
from PIL import Image

image = Image.open('example.jpg')
result = ocr.ocr(image)

# access the recognized text

for line in result:
    print(line[1][0])
    print(line[1][1])

`Pengenalan Dokumen OCR menggunakan Python API`

Pengenalan dokumen telah menjadi salah satu bidang penelitian terkemuka untuk OCR. Dokumen digunakan hampir setiap hari dalam kehidupan kita. Ketika pengembang perangkat lunak menerapkan OCR pada suatu dokumen, ia dapat mengambil informasi penting, mengambil bidang formulir, menganalisis tata letak, menyimpannya secara digital dan juga untuk membaca naskah lama. Pustaka PaddleOCR sumber terbuka memungkinkan pengembang perangkat lunak memuat berbagai jenis dokumen, melakukan operasi OCR, dan mengenali serta mengekstrak teks dari dokumen tersebut menggunakan kode Python. Pengenalan teks sangat akurat dan perpustakaan dapat dengan mudah mendeteksi karakter dan spasi khusus secara akurat.

`Lakukan Pengenalan Dokumen OCR menggunakan Python API`

img_path = './input_images/11-document-1.jpg'
result = ocr.ocr(img_path)

//Displaying the output.

`Dukungan Pengenalan Tabel di dalam Aplikasi Python`

Pustaka PaddleOCR sumber terbuka memungkinkan pengembang perangkat lunak mengenali data tabel di dalam aplikasi Python mereka. Pengenalan tabel terutama berisi tiga model, deteksi teks baris tunggal-DB, pengenalan teks baris tunggal-CRNN dan struktur tabel serta prediksi koordinat sel-SLANet. Contoh berikut menunjukkan cara mengenali gambar yang berisi tabel. Contoh berikut menunjukkan cara menggunakan metode draw_ocr yang mengambil gambar, kotak pembatas, teks, skor, dan jalur ke file font. Ini mengembalikan gambar dengan kotak pembatas dan teks yang terdeteksi. Anda dapat menampilkan gambar menggunakan metode show.

`Muat Gambar dan Deteksi Teks di dalamnya melalui Python API`

from paddleocr import PaddleOCR, draw_ocr

# Load the image that contains the table.

# Load the image
img_path = 'table_image.png'
with open(img_path, 'rb') as f:
    img = f.read()

# Create an instance of the PaddleOCR object
ocr = PaddleOCR()


# Draw the bounding boxes around the detected table cells

boxes = [line[0] for line in result]
scores = [line[1] for line in result]
texts = [line[2][0] for line in result]
im_show = draw_ocr(img, boxes, texts, scores, font_path='arial.ttf')
im_show.show()