API Python Sumber Terbuka untuk Membuat Aplikasi OCR Pintar

API OCR Python Gratis untuk Mendeteksi dan Mengenali Teks dari Gambar, termasuk Pemandangan Alami, Formulir, dan Dokumen yang Dipindai dalam Aplikasi Python.

Apa itu MonkeyOCR?

MonkeyOCR adalah sistem Optical Character Recognition (OCR) end-to-end yang canggih, dibangun di atas pembelajaran mendalam untuk pengembang perangkat lunak yang mencari solusi kuat dan fleksibel. Dikembangkan oleh Yuliang Liu, perpustakaan ini memungkinkan deteksi dan pengenalan teks yang tepat dari berbagai sumber, termasuk pemandangan alami, formulir, dan dokumen yang dipindai. Arsitekturnya yang modular dan dapat diskalakan menggabungkan teknik pembelajaran mendalam mutakhir dengan pipeline inferensi yang kuat, menjadikannya sangat cocok untuk tugas pengenalan teks dunia nyata. Aplikasi praktisnya meliputi pemindaian faktur dan pembacaan kartu identitas hingga mengekstrak teks dari papan nama dan membangun pipeline OCR multibahasa atau PDF‑to‑data.

Dirancang untuk fleksibilitas maksimum, MonkeyOCR memberdayakan insinyur perangkat lunak untuk menciptakan sistem pemrosesan dokumen cerdas yang independen dari mesin OCR komersial. Ia menawarkan beragam fitur canggih, seperti pipeline OCR yang sepenuhnya modular, konfigurasi file YAML yang sederhana, dan dukungan inferensi batch yang efisien. Sistem ini menghasilkan output kotak teks dengan koordinat yang tepat, memanfaatkan model modern seperti DBNet++ untuk deteksi dan CRNN untuk pengenalan, semuanya dalam kerangka kerja pra‑ dan pasca‑pemrosesan yang dapat dikonfigurasi. Kombinasi desain modular, dukungan model kontemporer, dan kemudahan konfigurasi menjadikan MonkeyOCR sangat cocok untuk membangun aplikasi canggih dunia nyata—dari otomasi dokumen perusahaan hingga pengenalan teks adegan berbasis seluler.

Sekilas

Gambaran umum fitur MonkeyOCR.

Gambaran Fitur

Membangun Aplikasi OCR
Menambahkan Kemampuan OCR
Mengenali Teks Gambar
Mengonversi gambar teks
Mengenali Teks Font
Bahasa Lain
Membuat aplikasi OCR
Menyimpan ke browser
Mengekstrak Teks
Dukungan Multi-threading

MonkeyOCR

MonkeyOCR mendukung format file gambar populer yang tercantum di bawah.

Pembaca

PNG, JPEG, BMP, TIFF, TGA, DICOM

Penulis

PNG, JPEG, BMP, TIFF

MonkeyOCR

Kemandirian Platform

MonkeyOCR dapat bekerja dengan Python 2.7 ke atas.

Python 2.7 ke atas.

MonkeyOCR

Memulai dengan MonkeyOCR

Cara yang direkomendasikan untuk menginstal MonkeyOCR adalah menggunakan pip. Silakan gunakan perintah berikut untuk instalasi yang lancar.

Instal MonkeyOCR via pip

 pip install MonkeyOCR

Instal MonkeyOCR via GitHub

 git clone https://github.com/Yuliang-Liu/MonkeyOCR.git

Anda juga dapat menginstalnya secara manual; unduh file rilis terbaru langsung dari GitHub repository.

Mengekstrak Teks dari Gambar Resi via Python

MonkeyOCR sumber terbuka adalah sistem Optical Character Recognition end-to-end yang berbasis teknik pembelajaran mendalam. Pengembang perangkat lunak yang mengerjakan aplikasi pemindaian dokumen, KTP, resi, atau plat nomor dapat menyematkan MonkeyOCR langsung ke dalam pipeline backend mereka. Dengan desain modularnya, Anda dapat menggunakan hanya model deteksi atau menggabungkannya dengan pengenalan untuk mengekstrak teks terstruktur dari gambar. Berikut contoh sederhana yang menunjukkan cara mengekstrak teks dari gambar resi menggunakan API Python.

Bagaimana Mengekstrak Teks dari Gambar Resi via API Python?

from monkey_ocr.ocr_predict import OCRPredictor

ocr = OCRPredictor(det_model_path="weights/dbnet.pth", rec_model_path="weights/crnn.pth")
results = ocr.predict("receipt.jpg")

for line in results:
    print(line['text'])

Pipeline OCR Kustom untuk Kasus Penggunaan Spesifik

Salah satu kekuatan terbesar dari perpustakaan MonkeyOCR sumber terbuka adalah arsitektur modularnya. Pengembang perangkat lunak dapat mencampur dan mencocokkan komponen seperti model deteksi, pengenalan, dan klasifikasi berdasarkan kebutuhan aplikasi mereka. Misalnya, aplikasi pemindaian dokumen dapat menggunakan model ringan seperti DBNet untuk deteksi dan CRNN untuk pengenalan, mengoptimalkan kecepatan dan akurasi.

Pipeline OCR Kustom via API Python?

from monkey_ocr.ocr_predict import OCRPredictor

ocr = OCRPredictor(
    det_model_path="weights/dbnet.pth",
    rec_model_path="weights/crnn.pth"
)

results = ocr.predict("form_image.jpg")
for item in results:
    print(item["text"], item["box"])

Integrasi dengan Perangkat Lunak Bisnis

Perpustakaan MonkeyOCR sumber terbuka juga dapat disematkan ke dalam alur kerja dokumen perusahaan, seperti mengotomatisasi entri data di sistem ERP atau CRM. Pengembang perangkat lunak dapat menjalankan MonkeyOCR di latar belakang untuk memindai PDF yang dipindai atau dokumen berbasis gambar yang diunggah pengguna, secara otomatis mengekstrak informasi terstruktur. Dengan mengonfigurasi MonkeyOCR menggunakan file config.yaml, tim dapat menjaga konsistensi di berbagai penerapan.

Membangun Pembaca Formulir Otomatis

Dengan menggabungkan deteksi teks MonkeyOCR dengan data posisi (bounding box), pengembang dapat merancang pembaca formulir cerdas yang menemukan bidang (misalnya, “Nama”, “Tanggal”, “Jumlah”) dan mengekstrak data terkait. Ini ideal untuk dokumen pajak, formulir medis, atau survei.