API Python منبع باز برای ادغام قابلیت های OCR

کتابخانه Python منبع باز که به توسعه دهندگان نرم افزار اجازه می دهد تا به راحتی قابلیت های تشخیص کاراکتر نوری (OCR) را در برنامه های خود ادغام کنند.

PaddleOCR یک کتابخانه قدرتمند منبع باز پایتون است که توسعه دهندگان نرم افزار را قادر می سازد تا به راحتی قابلیت های تشخیص کاراکتر نوری (OCR) را در برنامه های پایتون خود ادغام کنند. این بر روی PaddlePaddle، یک پلت فرم یادگیری عمیق منبع باز ساخته شده است و از پیشرفته ترین مدل های یادگیری عمیق برای دستیابی به دقت و عملکرد بالا استفاده می کند. PaddleOCR با ارائه یک API سطح بالا که بسیاری از جزئیات سطح پایین را انتزاعی می کند، فرآیند OCR را ساده می کند و به توسعه دهندگان این امکان را می دهد تا قابلیت های OCR را به برنامه های خود اضافه کنند.

PaddleOCR پشتیبانی کاملی از طیف گسترده ای از زبان ها و اسکریپت ها ارائه کرده است. در حال حاضر بیش از 80 زبان مختلف از جمله عربی، چینی، انگلیسی، فرانسوی، آلمانی، ژاپنی، کره ای، روسی، اسپانیایی و بسیاری دیگر را پشتیبانی می کند. این آن را به ابزاری ارزشمند برای توسعه دهندگانی تبدیل می کند که نیاز به کار با محتوای چند زبانه دارند. این کتابخانه علاوه بر قابلیت های OCR قدرتمند، تعدادی ابزار مفید برای کار با تصاویر و متن نیز دارد. به عنوان مثال، شامل ابزارهایی برای پیش پردازش تصویر، مانند deskewing و binarization، و همچنین ابزارهای پس از پردازش برای بهبود دقت خروجی OCR است.

PaddleOCR چندین مدل OCR مختلف ارائه می‌کند که هر کدام برای موارد استفاده متفاوت بهینه شده‌اند. به عنوان مثال، مدل تشخیص متن برای مکان یابی و استخراج مناطق متن از یک تصویر استفاده می شود، در حالی که مدل تشخیص متن برای شناسایی متن واقعی در آن مناطق استفاده می شود. همچنین یک ویژگی Model Ensemble وجود دارد که به توسعه دهندگان اجازه می دهد چندین مدل را برای دستیابی به دقت بالاتر ترکیب کنند. به طور کلی، PaddleOCR یک کتابخانه قدرتمند و آسان برای افزودن قابلیت های OCR به برنامه های پایتون شما است. پشتیبانی آن از طیف گسترده ای از زبان ها و اسکریپت ها، و همچنین مدل های قابل تنظیم و ابزارهای پس پردازش، آن را به ابزاری ارزشمند برای توسعه دهندگانی که با OCR کار می کنند تبدیل می کند.

در یک نگاه

نمای کلی از ویژگی‌های PaddleOCR.

بررسی اجمالی ویژگی ها

OCR را انجام دهید
افزودن قابلیت های OCR
تشخیص متن تصویر
تصاویر متن را کانوت کنید
متن قلم شناسایی شده
جستجوی PDF
زبان های دیگر
برنامه های OCR ایجاد کنید
ذخیره در مرورگر
متن را استخراج کنید
پشتیبانی از چند رشته

PaddleOCR

PaddleOCR از فرمت‌های فایل تصویر محبوب فهرست‌شده در زیر پشتیبانی می‌کند.

خواننده

PNG, JPEG, BMP, TIFF, TGA, DICOM

نویسنده

PNG, JPEG, BMP, TIFF

PaddleOCR

استقلال پلتفرم

PaddleOCR می تواند با .NET Framework 4.8 و Python 2.7 و بالاتر کار کند.

Python 2.7 و بالاتر.

PaddleOCR

شروع به کار با PaddleOCR

روش توصیه شده برای نصب PaddleOCR استفاده از pip است. لطفا از دستور زیر برای نصب راحت

استفاده کنید

PaddleOCR را از طریق پیپ

نصب کنید

 
Install PaddleOCR via pip
 pip install paddleocr 
همچنین می توانید آن را به صورت دستی نصب کنید. آخرین فایل های نسخه را مستقیماً از مخزن GitHub دانلود کنید.

`تشخیص متن تصویر از طریق PaddleOCR API`

تشخیص متن تصویر فرآیند استخراج متن از تصاویر است. این یک تکنیک مفید برای کاربردهای مختلف مانند اسکن اسناد، دیجیتالی کردن و OCR (تشخیص کاراکتر نوری) است. API منبع باز OCR (تشخیص کاراکتر نوری) مجموعه ای از مدل های پیشرفته OCR را ارائه می دهد که می تواند متن را از تصاویر مختلف، از جمله اسناد اسکن شده، اسکرین شات ها و عکس ها تشخیص دهد. این کتابخانه از چندین ویژگی مهم مربوط به تشخیص متن تصویر مانند بارگیری تصاویر، راه اندازی مدل OCR، شناسایی منطقه متن در تصویر، تشخیص متن از تصویر، استخراج متن از نتیجه و بسیاری موارد دیگر پشتیبانی می کند. مثال زیر نحوه تشخیص متن از یک تصویر در برنامه های پایتون را نشان می دهد.

`تشخیص متن تصویر را در پروژه های پایتون انجام دهید`

import paddleocr
ocr = paddleocr.OCR()

# load an image using the PIL
from PIL import Image

image = Image.open('example.jpg')
result = ocr.ocr(image)

# access the recognized text

for line in result:
    print(line[1][0])
    print(line[1][1])

`تشخیص سند OCR با استفاده از Python API`

تشخیص اسناد یکی از زمینه های تحقیقاتی برجسته برای OCR بوده است. اسناد تقریباً هر روز در زندگی ما مورد استفاده قرار می گیرند. هنگامی که توسعه دهندگان نرم افزار OCR را روی یک سند اعمال می کنند، می تواند اطلاعات مهم را بازیابی کند، فیلدهای فرم را بازیابی کند، طرح بندی را تجزیه و تحلیل کند، به صورت دیجیتال ذخیره کند و همچنین برای خواندن دست نوشته های قدیمی. کتابخانه منبع باز PaddleOCR به توسعه دهندگان نرم افزار اجازه می دهد تا انواع مختلفی از اسناد را بارگیری کنند، عملیات OCR را انجام دهند و متن را با استفاده از کد پایتون شناسایی و استخراج کنند. تشخیص متن بسیار دقیق است و کتابخانه به راحتی می تواند کاراکترها و فضاهای خاص را با دقت تشخیص دهد.

`انجام OCR Document RecognitionF با استفاده از Python API`

img_path = './input_images/11-document-1.jpg'
result = ocr.ocr(img_path)

//Displaying the output.

`پشتیبانی از تشخیص جدول در برنامه‌های پایتون`

کتابخانه منبع باز PaddleOCR به توسعه دهندگان نرم افزار امکان می دهد داده های جدول را در برنامه های پایتون خود تشخیص دهند. تشخیص جدول عمدتاً شامل سه مدل است، تشخیص متن تک خطی-DB، تشخیص متن تک خطی-CRNN و ساختار جدول و همچنین پیش بینی مختصات سلولی-SLANet. مثال زیر نحوه تشخیص تصویر حاوی جدول را نشان می دهد. مثال زیر نحوه استفاده از متد draw_ocr را نشان می‌دهد که در تصویر، کادرهای مرزبندی، متن‌ها، امتیازها و مسیر فایل فونت قرار می‌گیرد. تصویری را با کادرهای محدود کننده و متن شناسایی شده برمی گرداند. می توانید تصویر را با استفاده از روش نمایش نمایش دهید.

`بارگیری یک تصویر و شناسایی متن در داخل آن از طریق Python API`

from paddleocr import PaddleOCR, draw_ocr

# Load the image that contains the table.

# Load the image
img_path = 'table_image.png'
with open(img_path, 'rb') as f:
    img = f.read()

# Create an instance of the PaddleOCR object
ocr = PaddleOCR()


# Draw the bounding boxes around the detected table cells

boxes = [line[0] for line in result]
scores = [line[1] for line in result]
texts = [line[2][0] for line in result]
im_show = draw_ocr(img, boxes, texts, scores, font_path='arial.ttf')
im_show.show()