OCR Yeteneklerini Entegre Etmek için Açık Kaynak Python API'si
Yazılım geliştiricilerin optik karakter tanıma (OCR) özelliklerini uygulamalarına kolayca entegre etmelerine olanak tanıyan Açık Kaynak Python kitaplığı.
PaddleOCR, yazılım geliştiricilerin optik karakter tanıma (OCR) özelliklerini Python uygulamalarına kolayca entegre etmelerini sağlayan güçlü bir açık kaynaklı Python kitaplığıdır. Açık kaynaklı bir derin öğrenme platformu olan PaddlePaddle üzerine inşa edilmiştir ve yüksek doğruluk ve performans elde etmek için en son teknolojiye sahip derin öğrenme modellerini kullanır. PaddleOCR, düşük seviyeli ayrıntıların çoğunu ortadan kaldıran yüksek seviyeli bir API sağlayarak OCR sürecini basitleştirir ve geliştiricilerin uygulamalarına OCR yetenekleri eklemesini kolaylaştırır.
PaddleOCR çok çeşitli diller ve komut dosyaları için tam destek sağlamıştır. Şu anda Arapça, Çince, İngilizce, Fransızca, Almanca, Japonca, Korece, Rusça, İspanyolca ve diğerleri dahil 80'den fazla farklı dili desteklemektedir. Bu, onu çok dilli içerikle çalışması gereken geliştiriciler için değerli bir araç haline getirir. Güçlü OCR özelliklerine ek olarak kitaplık, resimler ve metinlerle çalışmak için bir dizi yararlı yardımcı program da içerir. Örneğin, eğrilik düzeltme ve ikilileştirme gibi görüntü ön işleme araçlarının yanı sıra OCR çıktısının doğruluğunu iyileştirmeye yönelik işleme sonrası araçları da içerir.
PaddleOCR, her biri farklı kullanım durumları için optimize edilmiş birkaç farklı OCR modeli sunar. Örneğin, Metin Algılama modeli bir görüntüdeki metin bölgelerini bulmak ve çıkarmak için kullanılırken, Metin Tanıma modeli bu bölgelerdeki gerçek metni tanımak için kullanılır. Ayrıca geliştiricilerin daha yüksek doğruluk elde etmek için birden fazla modeli birleştirmesine olanak tanıyan bir Model Topluluğu özelliği de bulunmaktadır. Genel olarak PaddleOCR, Python uygulamalarınıza OCR yetenekleri eklemek için kullanılan güçlü ve kullanımı kolay bir kitaplıktır. Özelleştirilebilir modelleri ve son işleme araçlarının yanı sıra çok çeşitli dil ve komut dosyalarını desteklemesi, onu OCR ile çalışan geliştiriciler için değerli bir araç haline getiriyor.
PaddleOCR'a Başlarken
PaddleOCR'ı kurmanın önerilen yolu pip kullanmaktır. Sorunsuz bir kurulum için lütfen aşağıdaki komutu kullanın
PaddleOCR'yi pip aracılığıyla yükleyin
PaddleOCR'yi pip aracılığıyla yükleyin
pip install paddleocr
Ayrıca manuel olarak da kurabilirsiniz; En son sürüm dosyalarını doğrudan GitHub deposundan indirin.
PaddleOCR API aracılığıyla Görüntü Metni Tanıma
Görüntü metni tanıma, görüntülerden metin çıkarma işlemidir. Belge tarama, sayısallaştırma ve OCR (Optik Karakter Tanıma) gibi çeşitli uygulamalar için yararlı bir tekniktir. Açık kaynaklı OCR (Optik Karakter Tanıma) API'si, taranmış belgeler, ekran görüntüleri ve fotoğraflar da dahil olmak üzere çeşitli görüntülerdeki metinleri tanıyabilen bir dizi son teknoloji ürünü OCR modeli sağlar. Kitaplık, görüntüleri yükleme, OCR modelini başlatma, görüntüdeki metin bölgesini tanımlama, görüntüdeki metni tanıma, sonuçtan metin çıkarma ve çok daha fazlası gibi görüntü metni tanımayla ilgili birçok önemli özelliği destekler. Aşağıdaki örnek, Python uygulamaları içindeki bir görüntüdeki metnin nasıl tanınacağını gösterir.
Python Projelerinde Görüntü Metin Tanıma İşlemi Gerçekleştirin
import paddleocr
ocr = paddleocr.OCR()
# load an image using the PIL
from PIL import Image
image = Image.open('example.jpg')
result = ocr.ocr(image)
# access the recognized text
for line in result:
print(line[1][0])
print(line[1][1])
Python API kullanarak OCR Belge Tanıma
Belge tanıma, OCR'nin öne çıkan araştırma alanlarından biri olmuştur. Dokümanlar hayatımızın hemen hemen her gününde kullanılmaktadır. Yazılım geliştiricileri bir belgeye OCR uyguladığında, önemli bilgileri alabilir, form alanlarını alabilir, düzeni analiz edebilir, dijital olarak saklayabilir ve ayrıca eski metinleri okuyabilir. Açık kaynaklı PaddleOCR kitaplığı, yazılım geliştiricilerin çeşitli türdeki belgeleri yüklemesine, OCR işlemlerini gerçekleştirmesine ve Python kodunu kullanarak bu belgedeki metni tanıyıp çıkarmasına olanak tanır. Metin tanıma oldukça doğrudur ve kitaplık, özel karakterleri ve boşlukları kolayca ve doğru bir şekilde algılayabilir.
Python API'sini kullanarak OCR Belge TanımaF gerçekleştirin
img_path = './input_images/11-document-1.jpg'
result = ocr.ocr(img_path)
//Displaying the output.
Python Uygulamalarında Tablo Tanıma Desteği
Açık kaynak PaddleOCR kitaplığı, yazılım geliştiricilerin Python uygulamaları içindeki tablo verilerini tanımasına olanak tanır. Tablo tanıma temel olarak üç model içerir; tek satırlı metin algılama-DB, tek satırlı metin tanıma-CRNN ve tablo yapısının yanı sıra hücre koordinat tahmini-SLANet. Aşağıdaki örnek, tabloyu içeren görüntünün nasıl tanınacağını gösterir. Aşağıdaki örnek, görüntüyü, sınırlayıcı kutuları, metinleri, puanları ve yazı tipi dosyasının yolunu alan Draw_ocr yönteminin nasıl kullanılacağını gösterir. Sınırlayıcı kutuların ve algılanan metnin bulunduğu bir resim döndürür. Gösteri yöntemini kullanarak resmi görüntüleyebilirsiniz.
Python API Aracılığıyla Bir Görüntü Yükleyin ve İçindeki Metni Algılayın
from paddleocr import PaddleOCR, draw_ocr
# Load the image that contains the table.
# Load the image
img_path = 'table_image.png'
with open(img_path, 'rb') as f:
img = f.read()
# Create an instance of the PaddleOCR object
ocr = PaddleOCR()
# Draw the bounding boxes around the detected table cells
boxes = [line[0] for line in result]
scores = [line[1] for line in result]
texts = [line[2][0] for line in result]
im_show = draw_ocr(img, boxes, texts, scores, font_path='arial.ttf')
im_show.show()