ספריית PHP לחילוץ טקסט מתמונות במספר שפות
API קוד פתוח ל-PHP לזיהוי תווים אופטי מאפשר לטעון ולסרוק תמונות או מסמכים, לזהות ולחלץ טקסט מתמונות במספר שפות בתוך אפליקציות PHP.
טכנולוגיית זיהוי תווים אופטי (OCR) הפכה לכלי חיוני לחילוץ טקסט מתמונות ומסמכים בימינו. עם עליית השינוי הדיגיטלי, הצורך בפתרונות OCR יעילים ומדויקים מעולם לא היה דחוף יותר. OcrPHP היא ספריית OCR בקוד פתוח חזקה מאוד המאפשרת למפתחי תוכנה לבנות יישומי OCR חזקים וניתנים להרחבה. היא ספרייה מבוססת PHP המשתמשת במנוע Tesseract OCR, טכנולוגיית OCR נפוצה ומוערכת שפותחה על ידי Google. ישנן תכונות רבות בספרייה, כגון סריקת מסמכים, חילוץ טקסט מתמונות, חילוץ טקסט בשפה ספציפית, חילוץ טקסט מקבצי PDF, ועוד רבות.
ספריית OcrPHP כוללת טכניקות מתקדמות של קדם-עיבוד תמונה, כגון יישור (deskewing), הסרת רעש (despeckling) ובינריזציה, לשיפור דיוק ה‑OCR. היא תומכת בביצוע OCR במגוון שפות, כולל אנגלית, ספרדית, צרפתית, גרמנית, איטלקית, פורטוגזית, סינית, יפנית ועוד. מפתחי תוכנה יכולים להתאים את תהליך ה‑OCR על‑ידי שינוי פרמטרים כגון שפה, מצב סגמנטציית דף והגדרות מנוע ה‑OCR. הספרייה כוללת מנגנוני טיפול בשגיאות חזקים כדי להבטיח שהפעולות יתבצעו בצורה חלקה ויעילה. עם תכונות כגון תמיכה בריבוי שפות, סריקת תמונות מתקדמת, תצורות מותאמות ואינטגרציה פשוטה, היא מאפשרת למפתחים ליצור כלי זיהוי טקסט מגוונים במאמץ מינימלי ובעלות נמוכה.
התחלה עם OcrPHP
הדרך המומלצת להתקנת OcrPHP היא באמצעות Composer. אנא השתמשו בפקודה הבאה להתקנה חלקה.
התקנת OcrPHP דרך Composer
composer require fizzday/ocrphpהתקנת OcrPHP דרך Github
git clone https://github.com/fizzday/OcrPHP.git ניתן להוריד את הספרייה המשותפת המוכנת מ‑Github repository.
זיהוי וחילוץ טקסט מתמונה באמצעות PHP
ספריית OcrPHP בקוד פתוח מאפשרת למפתחים לטעון סוגי תמונות שונים ולחלץ טקסט מהן בעזרת כמה שורות קוד ב‑PHP. הנה דוגמה פשוטה מאוד, המשתמשת בספריית Imagick לטעון קובץ תמונה וליצור מופע של מחלקת OcrPHP. המפתחים יכולים לאחר מכן להגדיר את השפה והגדרות מנוע ה‑OCR לפני ביצוע הזיהוי על התמונה באמצעות המתודה recognize(). לבסוף, הטקסט המחולץ מודפס בעזרת המתודה getText().
איך לחלץ טקסט מתמונה באמצעות ספריית PHP?
require_once 'OcrPHP/autoload.php';
// טען את קובץ התמונה
$image = new Imagick('path/to/image.jpg');
// צור מופע של מחלקת OcrPHP
$ocr = new OcrPHP();
// הגדר את השפה והגדרות מנוע ה‑OCR
$ocr->setLanguage('eng');
$ocr->setPageSegmentationMode(OcrPHP::PSM_SINGLE_BLOCK);
// בצע OCR על התמונה
$result = $ocr->recognize($image);
// הדפס את הטקסט המחולץ
echo $result->getText();
זיהוי טקסט בשפה ספציפית באמצעות PHP
ספריית OcrPHP מספקת תמיכה במגוון שפות לביצוע פעולות OCR בתוך אפליקציות PHP. בין אם הטקסט שלכם באנגלית, סינית או כל שפה נתמכת אחרת, OcrPHP יכולה להתמודד איתו ללא בעיות. כדי לחלץ טקסט בשפה ספציפית, העבירו את קוד השפה כפרמטר. ודאו שמודל השפה המתאים של Tesseract מותקן. הדוגמה הבאה מציגה כיצד מפתחים יכולים לחלץ טקסט משפה סינית בתוך אפליקציות PHP.
איך לחלץ טקסט מתמונה בשפה סינית באמצעות PHP?
require 'vendor/autoload.php';
use Fizzday\Ocr\Ocr;
$imagePath = __DIR__ . '/example-image-chinese.png';
$ocr = new Ocr();
// חילוץ טקסט בסינית
$text = $ocr->scan($imagePath, 'chi_sim'); // השתמשו ב‑'eng' לאנגלית
echo "Extracted Text (Chinese): \n" . $text;
עיבוד אצווה ואוטומציית OCR באמצעות PHP
למפתחים הבונים יישומי עיבוד מסמכים, עיבוד אצווה יכול להיות תכונה בעלת ערך מוסף. OcrPHP בקוד פתוח מאפשר למפתחים לעבור על תיקייה של קבצי תמונה ולחלץ טקסט מכל קובץ באופן אוטומטי. זה מושלם לאוטומציה של משימות כגון סריקת חשבוניות, קבלות או ספרים. הנה דוגמה שימושית מאוד הסורקת את כל קבצי .png בתיקייה המוגדרת, מחלצת טקסט מכל אחד ומדפיסה אותו. ניתן להרחיב זאת לשמירת הפלט לקובץ או למסד נתונים, מה שהופך את הכלי לחזק מאוד לעיבוד מסמכים.
איך לחלץ טקסט ממספר תמונות באמצעות ספריית PHP?
require 'vendor/autoload.php';
use Fizzday\Ocr\Ocr;
$directory = __DIR__ . '/images/';
$ocr = new Ocr();
foreach (glob($directory . '*.png') as $imagePath) {
$text = $ocr->scan($imagePath);
echo "Text from {$imagePath}: \n" . $text . "\n\n";
}
תצורה מותאמת ותמיכה באינטגרציה
ספריית OcrPHP בקוד פתוח היא ספרייה גמישה וידידותית למפתחים המפשטת את אינטגרציית יכולות OCR בפרויקטי PHP. הספרייה מאפשרת להגדיר תצורות מותאמות של Tesseract, כגון שפה, מצב סגמנטציית דף ופרמטרים של קדם‑עיבוד תמונה, ומספקת גמישות להתאמת תוצאות ה‑OCR לצרכים שלכם.