Open Source Python API to Build Smart OCR Apps

Free Python OCR API to Detect and Recognize Text from Images, Including Natural Scenes, Forms, and Scanned Documents inside Python Apps.

מה זה MonkeyOCR?

MonkeyOCR הוא מערכת מתקדמת, מקצה לקצה לזיהוי אופטי של תווים (OCR) המבוססת על למידת עומק, המיועדת למפתחי תוכנה המחפשים פתרון חזק וגמיש. פותחה על ידי יוליאנג ליו, הספרייה מאפשרת זיהוי מדויק והכרה בטקסט ממקורות מגוונים, כולל סצנות טבעיות, טפסים ומסמכים סרוקים. הארכיטקטורה המודולרית והניתנת להרחבה שלה משלבת טכניקות למידת עומק חדישות עם צינור אינפרנס חזק, מה שהופך אותה למתאימה במיוחד למשימות זיהוי טקסט בעולם האמיתי. יישומים פרקטיים נעים מסריקת חשבוניות וקריאת תעודות זהות ועד חילוץ טקסט משלטים ובניית צינורות OCR רב-לשוניים או המרה מ‑PDF לנתונים.

המערכת נבנתה למקסימום גמישות, ומאפשרת למהנדסי תוכנה ליצור מערכות חכמות לעיבוד מסמכים ללא תלות במנועי OCR מסחריים. היא מציעה מגוון רחב של תכונות מתקדמות, כגון צינור OCR מודולרי לחלוטין, קונפיגורציה קלה בקובץ YAML, ותמיכה יעילה באינפרנס במצב אצווה. המערכת מספקת פלט מדויק של תיבות טקסט עם קואורדינטות, תוך שימוש במודלים מודרניים כמו DBNet++ לזיהוי ו‑CRNN להכרה, הכל במסגרת תהליך קדם‑ו‑פוסט‑פרוססינג שניתן להתאמה. השילוב של עיצוב מודולרי, תמיכה במודלים עדכניים וקלות קונפיגורציה הופך את MonkeyOCR למתאימה באופן מושלם לבניית יישומים מתוחכמים בעולם האמיתי – החל מאוטומציה ארגונית של מסמכים ועד לזיהוי טקסט במצלמות ניידות.

במבט כולל

סקירה של תכונות MonkeyOCR.

סקירת תכונות

בנה אפליקציות OCR
הוסף יכולות OCR
הכר טקסט בתמונה
המר תמונות של טקסט
טקסט גופן מזוהה
שפות אחרות
צור אפליקציות OCR
שמור לדפדפן
חלץ טקסט
תמיכה בריבוי תהליכים

MonkeyOCR

MonkeyOCR תומך בפורמטים פופולריים של קבצי תמונה המופיעים למטה.

קורא

PNG, JPEG, BMP, TIFF, TGA, DICOM

כותב

PNG, JPEG, BMP, TIFF

MonkeyOCR

עצמאות פלטפורמה

MonkeyOCR יכול לעבוד עם Python 2.7 ומעלה.

Python 2.7 & למעלה.

MonkeyOCR

התחלה עם MonkeyOCR

הדרך המומלצת להתקנת MonkeyOCR היא באמצעות pip. אנא השתמשו בפקודה הבאה להתקנה חלקה.

התקנת MonkeyOCR באמצעות pip

 pip install MonkeyOCR

התקנת MonkeyOCR באמצעות GitHub

 git clone https://github.com/Yuliang-Liu/MonkeyOCR.git

ניתן גם להתקין אותו ידנית; הורידו את קבצי השחרור האחרונים ישירות ממאגר GitHub .

חילוץ טקסט מתמונת קבלה באמצעות Python

MonkeyOCR בקוד פתוח הוא מערכת מקצה לקצה לזיהוי אופטי של תווים (OCR) המבוססת על טכניקות למידת עומק. מפתחים העובדים על אפליקציות הסורקות מסמכים, תעודות זהות, קבלות או לוחות רישוי יכולים לשלב את MonkeyOCR ישירות בצינור האחורי שלהם. בעיצוב המודולרי, ניתן להשתמש רק במודל הזיהוי או לשלב אותו עם מודל ההכרה כדי לחלץ טקסט מובנה מתמונות. להלן דוגמה פשוטה הממחישה כיצד לחלץ טקסט מתמונת קבלה באמצעות API של Python.

איך לחלץ טקסט מתמונת קבלה באמצעות API של Python?

from monkey_ocr.ocr_predict import OCRPredictor

ocr = OCRPredictor(det_model_path="weights/dbnet.pth", rec_model_path="weights/crnn.pth")
results = ocr.predict("receipt.jpg")

for line in results:
    print(line['text'])

צינורות OCR מותאמים למקרים ספציפיים

אחת החוזקות המרכזיות של ספריית MonkeyOCR בקוד פתוח היא הארכיטקטורה המודולרית שלה. מפתחים יכולים לשלב ולערבב רכיבים כגון מודלי זיהוי, הכרה וסיווג בהתאם לדרישות האפליקציה. לדוגמה, אפליקציית סריקת מסמכים יכולה להשתמש במודל קל משקל כמו DBNet לזיהוי וב‑CRNN להכרה, ובכך לאזן בין מהירות לדיוק.

צינורות OCR מותאמים באמצעות API של Python?

from monkey_ocr.ocr_predict import OCRPredictor

ocr = OCRPredictor(
    det_model_path="weights/dbnet.pth",
    rec_model_path="weights/crnn.pth"
)

results = ocr.predict("form_image.jpg")
for item in results:
    print(item["text"], item["box"])

אינטגרציה עם תוכנות עסקיות

ספריית MonkeyOCR בקוד פתוח יכולה גם להשתלב בתהליכי עבודה ארגוניים של מסמכים, כגון אוטומציה של הזנת נתונים במערכות ERP או CRM. מפתחים יכולים להריץ את MonkeyOCR ברקע כדי לסרוק קבצי PDF סרוקים או מסמכים מבוססי תמונה שהועלו על ידי משתמשים, ולחלץ באופן אוטומטי מידע מובנה. על‑ידי קונפיגורציית MonkeyOCR באמצעות קובץ config.yaml, צוותים יכולים לשמור על עקביות בין פריסות שונות.

בניית קוראי טפסים אוטומטיים

על‑ידי שילוב זיהוי הטקסט של MonkeyOCR עם נתוני מיקום (תיבות גבול), מפתחים יכולים לעצב קוראי טפסים חכמים שמאתרים שדות (למשל “שם”, “תאריך”, “סכום”) ומחלצים את המידע המשויך. פתרון זה אידיאלי למסמכי מס, טפסים רפואיים או סקרים.