Akıllı OCR Uygulamaları Oluşturmak İçin Açık Kaynak Python API
Python uygulamaları içinde doğal sahneler, formlar ve taranmış belgeler dahil görüntülerden metin algılamak ve tanımak için Ücretsiz Python OCR API.
MonkeyOCR Nedir?
MonkeyOCR, derin öğrenme üzerine inşa edilmiş, güçlü ve esnek bir çözüm arayan yazılım geliştiricileri için gelişmiş bir uçtan uca Optik Karakter Tanıma sistemidir. Yuliang Liu tarafından geliştirilen bu kütüphane, doğal sahneler, formlar ve taranmış belgeler dahil çeşitli kaynaklardan metni kesin bir şekilde algılamayı ve tanımayı sağlar. Modüler ve ölçeklenebilir mimarisi, son teknoloji derin öğrenme tekniklerini sağlam bir çıkarım hattı ile birleştirerek gerçek dünya metin tanıma görevleri için son derece uygundur. Pratik uygulamalar arasında fatura tarama, kimlik kartı okuma, tabela metni çıkarma ve çok dilli OCR ya da PDF‑den‑veri boru hatları oluşturma yer alır.
Maksimum esneklik için tasarlanan MonkeyOCR, ticari OCR motorlarından bağımsız akıllı belge işleme sistemleri oluşturmak isteyen yazılım mühendislerine güç verir. Tamamen modüler bir OCR boru hattı, basit YAML dosyası yapılandırması ve verimli toplu çıkarım desteği gibi bir dizi gelişmiş özelliğe sahiptir. Sistem, DBNet++ gibi modern algılama modelleri ve CRNN gibi tanıma modelleri kullanarak koordinatlarla birlikte kesin metin kutusu çıktıları üretir; tüm bunlar yapılandırılabilir ön‑ ve son‑işleme çerçevesi içinde gerçekleşir. Bu modüler tasarım, çağdaş modellerin desteği ve kolay yapılandırma birleşimi, MonkeyOCR'yi kurumsal belge otomasyonundan mobil sahne metni tanımaya kadar sofistike gerçek dünya uygulamaları geliştirmek için mükemmel kılar.
MonkeyOCR ile Başlarken
MonkeyOCR'yi kurmanın önerilen yolu pip kullanmaktır. Sorunsuz bir kurulum için aşağıdaki komutu kullanın.
pip ile MonkeyOCR'yi Kur
pip install MonkeyOCR GitHub üzerinden MonkeyOCR'yi Kur
git clone https://github.com/Yuliang-Liu/MonkeyOCR.git Aşağıdaki GitHub deposundan en son sürüm dosyalarını doğrudan indirerek de manuel kurulum yapabilirsiniz.
Python ile Makbuz Görüntüsünden Metin Çıkarma
MonkeyOCR, derin öğrenme tekniklerine dayalı uçtan uca bir Optik Karakter Tanıma sistemidir. Belgeleri, kimlik kartlarını, makbuzları veya plaka fotoğraflarını tarayan uygulamalar geliştiren Yazılım Geliştiricileri, MonkeyOCR'yi doğrudan arka uç boru hatlarına entegre edebilir. Modüler tasarımı sayesinde yalnızca algılama modelini kullanabilir ya da tanıma ile birleştirerek görüntülerden yapılandırılmış metin çıkarabilirsiniz. Aşağıda, Python API kullanarak bir makbuz görüntüsünden metin nasıl çıkarılır gösteren basit bir örnek bulunmaktadır.
Python API ile Makbuz Görüntüsünden Metin Nasıl Çıkarılır?
from monkey_ocr.ocr_predict import OCRPredictor
ocr = OCRPredictor(det_model_path="weights/dbnet.pth", rec_model_path="weights/crnn.pth")
results = ocr.predict("receipt.jpg")
for line in results:
print(line['text'])
Belirli Kullanım Durumları için Özel OCR Boru Hatları
MonkeyOCR açık kaynak kütüphanesinin en büyük avantajlarından biri modüler mimarisidir. Yazılım geliştiricileri, uygulama gereksinimlerine göre algılama, tanıma ve sınıflandırma modelleri gibi bileşenleri karıştırıp eşleştirebilir. Örneğin, bir belge tarama uygulaması, algılama için hafif bir DBNet modeli ve tanıma için CRNN modeli kullanarak hem hız hem de doğruluk açısından optimum bir çözüm elde edebilir.
Python API ile Özel OCR Boru Hatları?
from monkey_ocr.ocr_predict import OCRPredictor
ocr = OCRPredictor(
det_model_path="weights/dbnet.pth",
rec_model_path="weights/crnn.pth"
)
results = ocr.predict("form_image.jpg")
for item in results:
print(item["text"], item["box"])
İş Yazılımlarıyla Entegrasyon
MonkeyOCR açık kaynak kütüphanesi, ERP veya CRM sistemlerinde veri girişini otomatikleştirmek gibi kurumsal belge iş akışlarına da entegre edilebilir. Yazılım geliştiricileri, MonkeyOCR'yi arka planda çalıştırarak kullanıcıların yüklediği taranmış PDF'leri veya görüntü tabanlı belgeleri tarayabilir ve yapılandırılmış bilgileri otomatik olarak çıkarabilir. MonkeyOCR'yi bir config.yaml dosyası ile yapılandırarak ekipler farklı dağıtımlarda tutarlılığı koruyabilir.
Otomatik Form Okuyucular Oluştur
MonkeyOCR'nun metin algılamasını konumsal veri (sınır kutuları) ile birleştirerek geliştiriciler, “İsim”, “Tarih”, “Tutar” gibi alanları bulup ilgili verileri çıkaran akıllı form okuyucular tasarlayabilir. Bu, vergi belgeleri, tıbbi formlar veya anketler için idealdir.