1. מוצרים
  2.   OCR
  3.   PHP
  4.   Tesseract OCR for PHP
 
  

ספריית PHP בקוד פתוח עבור פעולות OCR בתמונות

API לזיהוי תווים אופטי PHP בחינם לביצוע פעולות OCR על תמונות, מסמכים סרוקים וקובצי PDF באמצעות ספריית PHP של Tesseract.

בין שלל כלי ה-OCR הזמינים, Tesseract OCR בולט כאחד ה-API החזקים והרב-תכליתיים המאפשרים למפתחי תוכנה ליצור יישומים לזיהוי וחילוץ טקסט ממקורות חזותיים פופולריים שונים. Tesseract OCR עבור PHP הוא מעטפת שימושית מאוד לעבודה עם Tesseract OCR בתוך יישומי PHP. ספריית הקוד הפתוח Tesseract OCR עבור PHP יכולה לשפר את דיוק ה-OCR על ידי עיבוד מקדים של התמונה. ניתן ליישם טכניקות כגון שינוי גודל, בינאריזציה, הסרת רעשים וביטול הטיה כדי לשפר את הנראות של הטקסט ולהסיר כל חפץ שעלול להפריע לזיהוי.

Tesseract OCR עבור ספריית PHP מציעה מספר תכונות מתקדמות ואפשרויות התאמה אישית לשיפור תוצאות OCR בתוך יישומי PHP, כגון טיפול במסמכים רב לשוניים, ציון השפה הרצויה במהלך אתחול OCR כדי לשפר את הדיוק עבור שפות ספציפיות, תמיכה במצבי פילוח עמודים, שיפור דיוק הזיהוי עבור יישומים מיוחדים, תמיכה בהדרכה על גופנים או סמלים מותאמים אישית, או דפוסי טקסט ספציפיים, שיפור הנגישות, דיגיטציה של מסמכים, ניתוח טקסט, חילוץ נתונים ועוד רבים.

השתמש במעטפת PHP של Tesseract כדי להעביר את התמונה המעובדת מראש למנוע Tesseract OCR. המעטפת מספקת פונקציות לביצוע OCR ולאחזור הטקסט המזוהה כתוצאה מכך. הטקסט שחולץ עשוי לדרוש שלבי עיבוד נוספים נוספים כגון בדיקת איות, עיצוב או שינויים ספציפיים לשפה. ניתן להשתמש בספריות PHP כמו Symfony/string או Text_LanguageDetect למטרות אלו. על ידי שילוב Tesseract OCR בפרויקטי ה-PHP שלך, מפתחי תוכנה יכולים לייעל את עיבוד המסמכים, להפוך את חילוץ הנתונים לאוטומטי ולפתוח רמה חדשה של יעילות ונגישות ליישומים שלהם.

Previous Next

תחילת העבודה עם Tesseract OCR עבור PHP

הדרך המומלצת להתקנת Tesseract OCR עבור PHP היא באמצעות Composer. אנא השתמש בפקודה הבאה להתקנה חלקה.

התקן את Tesseract OCR עבור PHP דרך Composer

$ composer require thiagoalessio/tesseract_ocr 

התקן את Tesseract OCR עבור PHP דרך Github

git clone https://github.com/thiagoalessio/tesseract-ocr-for-php.git 

תוכל להוריד את הספרייה המשותפת שהורכבה ממאגר Github.

חלץ טקסט מתמונה בתוך יישומי PHP

ספריית הקוד הפתוח Tesseract OCR עבור PHP סיפקה כמה תכונות שימושיות לחילוץ טקסט מתמונות באמצעות פקודות PHP. הספרייה מציעה מצבי פילוח עמודים שונים לטיפול בפריסות וסידורי טקסט שונים. התחל את תהליך החילוץ על ידי טעינת התמונה או המסמך המכילים את הטקסט שברצונך לחלץ. השתמש במעטפת PHP של Tesseract כדי להעביר את התמונה המעובדת מראש למנוע Tesseract OCR. המעטפת מספקת פונקציות לביצוע OCR ולאחזור הטקסט המזוהה כתוצאה מכך. הדוגמה הבאה מציגה תהליך בסיסי של טעינת תמונה וחילוץ טקסט ממנה באמצעות פקודות PHP.

כיצד לטעון תמונה ולחלץ טקסט באמצעות קוד PHP?

use TesseractOCR\TesseractOCR;

$imagePath = '/path/to/your/image.jpg';

$tesseract = new TesseractOCR($imagePath);
$tesseract->setLanguage('eng'); // Set the desired language for text recognition

$text = $tesseract->run();
echo $text;

טיפול בפלט OCR בתוך יישומי PHP

ספריית הקוד הפתוח Tesseract OCR עבור PHP כללה תכונות שימושיות מאוד לשמירה ועבודה עם טקסט הפלט של OCR בתוך יישומי PHP. זה מאפשר לשמור את הטקסט בכמה פורמטים פופולריים כמו PDF, TXT, HTML, Word ועוד רבים אחרים. זה מאפשר לטפל בטקסט המוכר שחולץ מהתמונה. בהתאם לדרישות היישום שלך, ייתכן שתצטרך להמשיך לעבד או לנתח את הטקסט שחולץ. משימות נפוצות כוללות אימות נתונים, ניקוי טקסט, בדיקת איות, עיצוב, שילוב עם מערכות אחרות לעיבוד מתקדם או שינויים ספציפיים לשפה. מפתחי תוכנה יכולים לנתח בקלות כמויות גדולות של נתוני טקסט המופקים ממסמכים, עדכוני מדיה חברתית או משוב מלקוחות כדי להפיק תובנות, ניתוח סנטימנטים או מודלים של נושאים.

אחזר נתוני תמונה, גודל ושמור אותם בפורמט PDF באמצעות PHP API

//Using Imagick
$data = $img->getImageBlob();
$size = $img->getImageLength();
//Using GD
ob_start();
// Note that you can use any format supported by tesseract
imagepng($img, null, 0);
$size = ob_get_length();
$data = ob_get_clean();

$ocr = new TesseractOCR();
$ocr->imageData($data, $size);
$ocr->run();


// Save the Output to PDF file

echo (new TesseractOCR('img.png'))
    ->configFile('pdf')
    ->setOutputFile('/PATH_TO_MY_OUTPUTFILE/searchable.pdf')
    ->run();

 עִברִית