Open Source Python API to Build Smart OCR Apps
Free Python OCR API to Detect and Recognize Text from Images, Including Natural Scenes, Forms, and Scanned Documents inside Python Apps.
ما هو MonkeyOCR؟
MonkeyOCR هو نظام متقدم وشامل للتعرف الضوئي على الأحرف (OCR) مبني على التعلم العميق للمطورين الذين يبحثون عن حل قوي ومرن. تم تطويره بواسطة Yuliang Liu، يتيح هذا المكتبة اكتشاف النصوص بدقة والتعرف عليها من مصادر متنوعة، بما في ذلك المشاهد الطبيعية والنماذج والوثائق الممسوحة. تجمع هندسته المعيارية والقابلة للتوسع بين أحدث تقنيات التعلم العميق وخط أنابيب استدلال قوي، مما يجعله مناسبًا بشكل استثنائي لمهام التعرف على النص في العالم الحقيقي. تشمل التطبيقات العملية مسح الفواتير وقراءة بطاقات الهوية واستخراج النص من اللوحات الإعلانية وإنشاء خطوط أنابيب OCR متعددة اللغات أو تحويل PDF إلى بيانات.
مصمم لتحقيق أقصى مرونة، يتيح MonkeyOCR لمهندسي البرمجيات إنشاء أنظمة معالجة مستندات ذكية مستقلة عن محركات OCR التجارية. يتميز بمجموعة من الميزات المتقدمة، مثل خط أنابيب OCR كامل التكوين، تكوين بسيط عبر ملفات YAML، ودعم استدلال دفعي فعال. يقدم النظام مخرجات مربعات نصية دقيقة مع إحداثيات، باستخدام نماذج حديثة مثل DBNet++ للكشف وCRNN للتعرف، كل ذلك ضمن إطار عمل قابل للتهيئة للمعالجة المسبقة واللاحقة. يجمع هذا الجمع بين التصميم المعياري، ودعم النماذج المعاصرة، وسهولة التكوين، ما يجعل MonkeyOCR مثاليًا لبناء تطبيقات معقدة في العالم الحقيقي—من أتمتة المستندات المؤسسية إلى التعرف على النص في المشاهد عبر الهواتف المحمولة.
البدء مع MonkeyOCR
الطريقة الموصى بها لتثبيت MonkeyOCR هي باستخدام pip. يرجى استخدام الأمر التالي للحصول على تثبيت سلس.
تثبيت MonkeyOCR عبر pip
pip install MonkeyOCR تثبيت MonkeyOCR عبر GitHub
git clone https://github.com/Yuliang-Liu/MonkeyOCR.git يمكنك أيضًا تثبيته يدويًا؛ قم بتحميل أحدث ملفات الإصدار مباشرةً من مستودع GitHub.
استخراج النص من صورة إيصال باستخدام بايثون
MonkeyOCR المفتوح المصدر هو نظام شامل للتعرف الضوئي على الأحرف مبني على تقنيات التعلم العميق. يمكن لمطوري البرمجيات الذين يعملون على تطبيقات مسح المستندات أو بطاقات الهوية أو الإيصالات أو لوحات الترخيص توصيل MonkeyOCR مباشرةً إلى خط أنابيب الخلفية. بفضل تصميمه المعياري، يمكنك استخدام نموذج الكشف فقط أو دمجه مع نموذج التعرف لاستخراج نص منظم من الصور. إليك مثالًا بسيطًا يوضح كيفية استخراج النص من صورة إيصال باستخدام واجهة برمجة تطبيقات بايثون.
كيف يمكن استخراج النص من صورة إيصال عبر واجهة برمجة تطبيقات بايثون؟
from monkey_ocr.ocr_predict import OCRPredictor
ocr = OCRPredictor(det_model_path="weights/dbnet.pth", rec_model_path="weights/crnn.pth")
results = ocr.predict("receipt.jpg")
for line in results:
print(line['text'])
خطوط أنابيب OCR مخصصة لحالات الاستخدام المحددة
إحدى أقوى ميزات مكتبة MonkeyOCR المفتوحة المصدر هي بنيةها المعيارية. يمكن لمطوري البرمجيات خلط ومطابقة المكونات مثل نماذج الكشف، والتعرف، والتصنيف وفقًا لمتطلبات تطبيقهم. على سبيل المثال، يمكن لتطبيق مسح المستندات استخدام نموذج خفيف مثل DBNet للكشف وCRNN للتعرف، مما يوازن بين السرعة والدقة.
خطوط أنابيب OCR مخصصة عبر واجهة برمجة تطبيقات بايثون؟
from monkey_ocr.ocr_predict import OCRPredictor
ocr = OCRPredictor(
det_model_path="weights/dbnet.pth",
rec_model_path="weights/crnn.pth"
)
results = ocr.predict("form_image.jpg")
for item in results:
print(item["text"], item["box"])
التكامل مع برمجيات الأعمال
يمكن أيضًا توصيل مكتبة MonkeyOCR المفتوحة المصدر إلى سير عمل المستندات المؤسسية، مثل أتمتة إدخال البيانات في أنظمة ERP أو CRM. يمكن لمطوري البرمجيات تشغيل MonkeyOCR في الخلفية لمسح ملفات PDF الممسوحة أو المستندات القائمة على الصور التي يرفعها المستخدمون، واستخراج المعلومات المنظمة تلقائيًا. من خلال تكوين MonkeyOCR عبر ملف config.yaml، يمكن للفرق الحفاظ على التناسق عبر عمليات النشر المختلفة.
إنشاء قارئات نماذج آلية
من خلال دمج كشف النص في MonkeyOCR مع البيانات الموضعية (مربعات الإحاطة)، يمكن للمطورين تصميم قارئات نماذج ذكية تحدد الحقول (مثل "الاسم"، "التاريخ"، "المبلغ") وتستخرج البيانات المرتبطة. هذا مثالي للوثائق الضريبية، النماذج الطبية، أو الاستبيانات.