קוד פתוח של Python API לשילוב יכולות OCR

ספריית קוד פתוח Python המאפשרת למפתחי תוכנה לשלב בקלות יכולות זיהוי תווים אופטי (OCR) באפליקציות שלהם.

PaddleOCR היא ספריית Python רבת עוצמה בקוד פתוח המאפשרת למפתחי תוכנה לשלב בקלות יכולות זיהוי תווים אופטי (OCR) ביישומי Python שלהם. הוא בנוי על גבי PaddlePaddle, פלטפורמת למידה עמוקה בקוד פתוח, ומשתמש במודלים מתקדמים של למידה עמוקה כדי להשיג דיוק וביצועים גבוהים. PaddleOCR מפשט את תהליך ה-OCR על-ידי אספקת API ברמה גבוהה שמפשט רבים מהפרטים ברמה נמוכה, מה שמקל על מפתחים להוסיף יכולות OCR ליישומים שלהם.

PaddleOCR סיפקה תמיכה מלאה עבור מגוון רחב של שפות ותסריטים. כרגע הוא תומך ב-80+ שפות שונות, כולל ערבית, סינית, אנגלית, צרפתית, גרמנית, יפנית, קוריאנית, רוסית, ספרדית ורבים אחרים. זה הופך אותו לכלי בעל ערך עבור מפתחים שצריכים לעבוד עם תוכן רב לשוני. בנוסף ליכולות ה-OCR החזקות שלה, הספרייה כוללת גם מספר כלי עזר שימושיים לעבודה עם תמונות וטקסט. לדוגמה, הוא כולל כלים לעיבוד מקדים של תמונה, כגון ביטול הטיה ובינאריזציה, וכן כלים לעיבוד לאחר לשיפור הדיוק של פלט ה-OCR.

PaddleOCR מספק מספר דגמי OCR שונים, כל אחד מהם מותאם למקרי שימוש שונים. לדוגמה, מודל זיהוי הטקסט משמש לאיתור וחילוץ אזורי טקסט מתמונה, בעוד שמודל זיהוי הטקסט משמש לזיהוי הטקסט בפועל בתוך אותם אזורים. יש גם תכונת Model Ensemble המאפשרת למפתחים לשלב מספר דגמים כדי להשיג דיוק גבוה עוד יותר. בסך הכל, PaddleOCR היא ספרייה חזקה וקלה לשימוש להוספת יכולות OCR ליישומי Python שלך. התמיכה שלו במגוון רחב של שפות וסקריפטים, כמו גם המודלים הניתנים להתאמה אישית וכלי העיבוד לאחר, הופכים אותו לכלי בעל ערך עבור מפתחים העובדים עם OCR.

במבט אחד

סקירה כללית של תכונות PaddleOCR.

סקירת תכונות

בצע OCR
הוסף יכולות OCR
זהה טקסט תמונה
המר תמונות של טקסט
טקסט גופן מזוהה
חפש PDF
שפות אחרות
צור אפליקציות OCR
שמור בדפדפן
חלץ טקסט
תמיכה בריבוי-שרשורים

PaddleOCR

PaddleOCR תומך בפורמטים פופולריים של קבצי תמונה המפורטים להלן.

קוֹרֵא

PNG, JPEG, BMP, TIFF, TGA, DICOM

סוֹפֵר

PNG, JPEG, BMP, TIFF

PaddleOCR

עצמאות פלטפורמה

PaddleOCR יכול לעבוד עם .NET Framework 4.8 ו-Python 2.7 ומעלה.

Python 2.7 ואילך.

PaddleOCR

תחילת העבודה עם PaddleOCR

הדרך המומלצת להתקין את PaddleOCR היא באמצעות pip. אנא השתמש בפקודה הבאה להתקנה חלקה

התקן את PaddleOCR באמצעות pip

 
Install PaddleOCR via pip
 pip install paddleocr 
אתה יכול גם להתקין אותו באופן ידני; הורד את קבצי הגרסה העדכניים ביותר ישירות ממאגר GitHub.

`זיהוי טקסט תמונה באמצעות PaddleOCR API`

זיהוי טקסט תמונה הוא תהליך של חילוץ טקסט מתמונות. זוהי טכניקה שימושית עבור יישומים שונים כגון סריקת מסמכים, דיגיטציה ו-OCR (זיהוי תווים אופטי). ה-API של קוד פתוח OCR (זיהוי תווים אופטי) מספק קבוצה של דגמי OCR חדישים שיכולים לזהות טקסט מתמונות שונות, כולל מסמכים סרוקים, צילומי מסך ותצלומים. הספרייה תומכת במספר תכונות חשובות הקשורות לזיהוי טקסט תמונה כגון טעינת תמונות, אתחול מודל OCR, זיהוי אזור טקסט בתמונה, זיהוי טקסט מהתמונה, חילוץ טקסט מהתוצאה ועוד רבים נוספים. הדוגמה הבאה מראה כיצד לזהות טקסט מתמונה בתוך יישומי Python.

`בצע זיהוי טקסט תמונה בתוך Python Projects`

import paddleocr
ocr = paddleocr.OCR()

# load an image using the PIL
from PIL import Image

image = Image.open('example.jpg')
result = ocr.ocr(image)

# access the recognized text

for line in result:
    print(line[1][0])
    print(line[1][1])

`זיהוי מסמכי OCR באמצעות Python API`

זיהוי מסמכים היה אחד מתחומי המחקר הבולטים של OCR. מסמכים נמצאים בשימוש כמעט כל יום בחיינו. כאשר מפתחי תוכנה מיישמים OCR על מסמך, הוא יכול לאחזר מידע חשוב, לאחזר שדות טופס, לנתח פריסה, לאחסן דיגיטלית וגם לקריאת כתבי יד ישנים. ספריית הקוד הפתוח PaddleOCR מאפשרת למפתחי תוכנה לטעון סוגים שונים של מסמכים, לבצע פעולות OCR ולזהות ולחלץ ממנו טקסט באמצעות קוד Python. זיהוי הטקסט מדויק מאוד והספרייה יכולה לזהות בקלות תווים ורווחים מיוחדים בצורה מדויקת.

`בצע OCR Document RecognitionF באמצעות Python API`

img_path = './input_images/11-document-1.jpg'
result = ocr.ocr(img_path)

//Displaying the output.

`תמיכה בזיהוי טבלאות בתוך יישומי Python`

ספריית הקוד הפתוח PaddleOCR מאפשרת למפתחי תוכנה לזהות את נתוני הטבלה בתוך יישומי Python שלהם. זיהוי הטבלה מכיל בעיקר שלושה מודלים, זיהוי טקסט בשורה אחת-DB, זיהוי טקסט בשורה אחת-CRNN ומבנה טבלה וכן חיזוי קואורדינטות תאים-SLANet. הדוגמה הבאה מראה כיצד לזהות את התמונה המכילה את הטבלה. הדוגמה הבאה מראה כיצד להשתמש בשיטת draw_ocr אשר לוקחת את התמונה, התיבות התוחמות, הטקסטים, הציונים והנתיב לקובץ הגופן. הוא מחזיר תמונה עם התיבות התוחמות והטקסט שזוהה. אתה יכול להציג את התמונה בשיטת התצוגה.

`טען תמונה וזיהוי טקסט בתוכה באמצעות Python API`

from paddleocr import PaddleOCR, draw_ocr

# Load the image that contains the table.

# Load the image
img_path = 'table_image.png'
with open(img_path, 'rb') as f:
    img = f.read()

# Create an instance of the PaddleOCR object
ocr = PaddleOCR()


# Draw the bounding boxes around the detected table cells

boxes = [line[0] for line in result]
scores = [line[1] for line in result]
texts = [line[2][0] for line in result]
im_show = draw_ocr(img, boxes, texts, scores, font_path='arial.ttf')
im_show.show()