Akıllı OCR Uygulamaları Oluşturmak İçin Açık Kaynak Python API

Python uygulamaları içinde doğal sahneler, formlar ve taranmış belgeler dahil görüntülerden metin algılamak ve tanımak için Ücretsiz Python OCR API.

MonkeyOCR Nedir?

MonkeyOCR, derin öğrenme üzerine inşa edilmiş, güçlü ve esnek bir çözüm arayan yazılım geliştiricileri için gelişmiş bir uçtan uca Optik Karakter Tanıma sistemidir. Yuliang Liu tarafından geliştirilen bu kütüphane, doğal sahneler, formlar ve taranmış belgeler dahil çeşitli kaynaklardan metni kesin bir şekilde algılamayı ve tanımayı sağlar. Modüler ve ölçeklenebilir mimarisi, son teknoloji derin öğrenme tekniklerini sağlam bir çıkarım hattı ile birleştirerek gerçek dünya metin tanıma görevleri için son derece uygundur. Pratik uygulamalar arasında fatura tarama, kimlik kartı okuma, tabela metni çıkarma ve çok dilli OCR ya da PDF‑den‑veri boru hatları oluşturma yer alır.

Maksimum esneklik için tasarlanan MonkeyOCR, ticari OCR motorlarından bağımsız akıllı belge işleme sistemleri oluşturmak isteyen yazılım mühendislerine güç verir. Tamamen modüler bir OCR boru hattı, basit YAML dosyası yapılandırması ve verimli toplu çıkarım desteği gibi bir dizi gelişmiş özelliğe sahiptir. Sistem, DBNet++ gibi modern algılama modelleri ve CRNN gibi tanıma modelleri kullanarak koordinatlarla birlikte kesin metin kutusu çıktıları üretir; tüm bunlar yapılandırılabilir ön‑ ve son‑işleme çerçevesi içinde gerçekleşir. Bu modüler tasarım, çağdaş modellerin desteği ve kolay yapılandırma birleşimi, MonkeyOCR'yi kurumsal belge otomasyonundan mobil sahne metni tanımaya kadar sofistike gerçek dünya uygulamaları geliştirmek için mükemmel kılar.

Genel Bakış

MonkeyOCR özelliklerine genel bir bakış.

Özellikler Genel Bakışı

OCR Uygulamaları Oluştur
OCR Yeteneği Ekle
Görüntü Metnini Tanı
Metin Görüntülerini Dönüştür
Tanımlı Font Metni
Diğer Diller
OCR Uygulamaları Oluştur
Tarayıcıya Kaydet
Metin Çıkar
Çok İş Parçacıklı Destek

MonkeyOCR

MonkeyOCR, aşağıda listelenen popüler görüntü dosya formatlarını destekler.

Okuyucu

PNG, JPEG, BMP, TIFF, TGA, DICOM

Yazıcı

PNG, JPEG, BMP, TIFF

MonkeyOCR

Platform Bağımsızlığı

MonkeyOCR, Python 2.7 ve üzeri ile çalışabilir.

Python 2.7 ve üzeri.

MonkeyOCR

MonkeyOCR ile Başlarken

MonkeyOCR'yi kurmanın önerilen yolu pip kullanmaktır. Sorunsuz bir kurulum için aşağıdaki komutu kullanın.

pip ile MonkeyOCR'yi Kur

 pip install MonkeyOCR

GitHub üzerinden MonkeyOCR'yi Kur

 git clone https://github.com/Yuliang-Liu/MonkeyOCR.git

Aşağıdaki GitHub deposundan en son sürüm dosyalarını doğrudan indirerek de manuel kurulum yapabilirsiniz.

Python ile Makbuz Görüntüsünden Metin Çıkarma

MonkeyOCR, derin öğrenme tekniklerine dayalı uçtan uca bir Optik Karakter Tanıma sistemidir. Belgeleri, kimlik kartlarını, makbuzları veya plaka fotoğraflarını tarayan uygulamalar geliştiren Yazılım Geliştiricileri, MonkeyOCR'yi doğrudan arka uç boru hatlarına entegre edebilir. Modüler tasarımı sayesinde yalnızca algılama modelini kullanabilir ya da tanıma ile birleştirerek görüntülerden yapılandırılmış metin çıkarabilirsiniz. Aşağıda, Python API kullanarak bir makbuz görüntüsünden metin nasıl çıkarılır gösteren basit bir örnek bulunmaktadır.

Python API ile Makbuz Görüntüsünden Metin Nasıl Çıkarılır?

from monkey_ocr.ocr_predict import OCRPredictor

ocr = OCRPredictor(det_model_path="weights/dbnet.pth", rec_model_path="weights/crnn.pth")
results = ocr.predict("receipt.jpg")

for line in results:
    print(line['text'])

Belirli Kullanım Durumları için Özel OCR Boru Hatları

MonkeyOCR açık kaynak kütüphanesinin en büyük avantajlarından biri modüler mimarisidir. Yazılım geliştiricileri, uygulama gereksinimlerine göre algılama, tanıma ve sınıflandırma modelleri gibi bileşenleri karıştırıp eşleştirebilir. Örneğin, bir belge tarama uygulaması, algılama için hafif bir DBNet modeli ve tanıma için CRNN modeli kullanarak hem hız hem de doğruluk açısından optimum bir çözüm elde edebilir.

Python API ile Özel OCR Boru Hatları?

from monkey_ocr.ocr_predict import OCRPredictor

ocr = OCRPredictor(
    det_model_path="weights/dbnet.pth",
    rec_model_path="weights/crnn.pth"
)

results = ocr.predict("form_image.jpg")
for item in results:
    print(item["text"], item["box"])

İş Yazılımlarıyla Entegrasyon

MonkeyOCR açık kaynak kütüphanesi, ERP veya CRM sistemlerinde veri girişini otomatikleştirmek gibi kurumsal belge iş akışlarına da entegre edilebilir. Yazılım geliştiricileri, MonkeyOCR'yi arka planda çalıştırarak kullanıcıların yüklediği taranmış PDF'leri veya görüntü tabanlı belgeleri tarayabilir ve yapılandırılmış bilgileri otomatik olarak çıkarabilir. MonkeyOCR'yi bir config.yaml dosyası ile yapılandırarak ekipler farklı dağıtımlarda tutarlılığı koruyabilir.

Otomatik Form Okuyucular Oluştur

MonkeyOCR'nun metin algılamasını konumsal veri (sınır kutuları) ile birleştirerek geliştiriciler, “İsim”, “Tarih”, “Tutar” gibi alanları bulup ilgili verileri çıkaran akıllı form okuyucular tasarlayabilir. Bu, vergi belgeleri, tıbbi formlar veya anketler için idealdir.