ספריית PHP בקוד פתוח עבור פעולות OCR בתמונות
API לזיהוי תווים אופטי PHP בחינם לביצוע פעולות OCR על תמונות, מסמכים סרוקים וקובצי PDF באמצעות ספריית PHP של Tesseract.
בין שלל כלי ה-OCR הזמינים, Tesseract OCR בולט כאחד ה-API החזקים והרב-תכליתיים המאפשרים למפתחי תוכנה ליצור יישומים לזיהוי וחילוץ טקסט ממקורות חזותיים פופולריים שונים. Tesseract OCR עבור PHP הוא מעטפת שימושית מאוד לעבודה עם Tesseract OCR בתוך יישומי PHP. ספריית הקוד הפתוח Tesseract OCR עבור PHP יכולה לשפר את דיוק ה-OCR על ידי עיבוד מקדים של התמונה. ניתן ליישם טכניקות כגון שינוי גודל, בינאריזציה, הסרת רעשים וביטול הטיה כדי לשפר את הנראות של הטקסט ולהסיר כל חפץ שעלול להפריע לזיהוי.
Tesseract OCR עבור ספריית PHP מציעה מספר תכונות מתקדמות ואפשרויות התאמה אישית לשיפור תוצאות OCR בתוך יישומי PHP, כגון טיפול במסמכים רב לשוניים, ציון השפה הרצויה במהלך אתחול OCR כדי לשפר את הדיוק עבור שפות ספציפיות, תמיכה במצבי פילוח עמודים, שיפור דיוק הזיהוי עבור יישומים מיוחדים, תמיכה בהדרכה על גופנים או סמלים מותאמים אישית, או דפוסי טקסט ספציפיים, שיפור הנגישות, דיגיטציה של מסמכים, ניתוח טקסט, חילוץ נתונים ועוד רבים.
השתמש במעטפת PHP של Tesseract כדי להעביר את התמונה המעובדת מראש למנוע Tesseract OCR. המעטפת מספקת פונקציות לביצוע OCR ולאחזור הטקסט המזוהה כתוצאה מכך. הטקסט שחולץ עשוי לדרוש שלבי עיבוד נוספים נוספים כגון בדיקת איות, עיצוב או שינויים ספציפיים לשפה. ניתן להשתמש בספריות PHP כמו Symfony/string או Text_LanguageDetect למטרות אלו. על ידי שילוב Tesseract OCR בפרויקטי ה-PHP שלך, מפתחי תוכנה יכולים לייעל את עיבוד המסמכים, להפוך את חילוץ הנתונים לאוטומטי ולפתוח רמה חדשה של יעילות ונגישות ליישומים שלהם.
תחילת העבודה עם Tesseract OCR עבור PHP
הדרך המומלצת להתקנת Tesseract OCR עבור PHP היא באמצעות Composer. אנא השתמש בפקודה הבאה להתקנה חלקה.
התקן את Tesseract OCR עבור PHP דרך Composer
$ composer require thiagoalessio/tesseract_ocr
התקן את Tesseract OCR עבור PHP דרך Github
git clone https://github.com/thiagoalessio/tesseract-ocr-for-php.git
תוכל להוריד את הספרייה המשותפת שהורכבה ממאגר Github.
חלץ טקסט מתמונה בתוך יישומי PHP
ספריית הקוד הפתוח Tesseract OCR עבור PHP סיפקה כמה תכונות שימושיות לחילוץ טקסט מתמונות באמצעות פקודות PHP. הספרייה מציעה מצבי פילוח עמודים שונים לטיפול בפריסות וסידורי טקסט שונים. התחל את תהליך החילוץ על ידי טעינת התמונה או המסמך המכילים את הטקסט שברצונך לחלץ. השתמש במעטפת PHP של Tesseract כדי להעביר את התמונה המעובדת מראש למנוע Tesseract OCR. המעטפת מספקת פונקציות לביצוע OCR ולאחזור הטקסט המזוהה כתוצאה מכך. הדוגמה הבאה מציגה תהליך בסיסי של טעינת תמונה וחילוץ טקסט ממנה באמצעות פקודות PHP.
כיצד לטעון תמונה ולחלץ טקסט באמצעות קוד PHP?
use TesseractOCR\TesseractOCR;
$imagePath = '/path/to/your/image.jpg';
$tesseract = new TesseractOCR($imagePath);
$tesseract->setLanguage('eng'); // Set the desired language for text recognition
$text = $tesseract->run();
echo $text;
טיפול בפלט OCR בתוך יישומי PHP
ספריית הקוד הפתוח Tesseract OCR עבור PHP כללה תכונות שימושיות מאוד לשמירה ועבודה עם טקסט הפלט של OCR בתוך יישומי PHP. זה מאפשר לשמור את הטקסט בכמה פורמטים פופולריים כמו PDF, TXT, HTML, Word ועוד רבים אחרים. זה מאפשר לטפל בטקסט המוכר שחולץ מהתמונה. בהתאם לדרישות היישום שלך, ייתכן שתצטרך להמשיך לעבד או לנתח את הטקסט שחולץ. משימות נפוצות כוללות אימות נתונים, ניקוי טקסט, בדיקת איות, עיצוב, שילוב עם מערכות אחרות לעיבוד מתקדם או שינויים ספציפיים לשפה. מפתחי תוכנה יכולים לנתח בקלות כמויות גדולות של נתוני טקסט המופקים ממסמכים, עדכוני מדיה חברתית או משוב מלקוחות כדי להפיק תובנות, ניתוח סנטימנטים או מודלים של נושאים.
אחזר נתוני תמונה, גודל ושמור אותם בפורמט PDF באמצעות PHP API
//Using Imagick
$data = $img->getImageBlob();
$size = $img->getImageLength();
//Using GD
ob_start();
// Note that you can use any format supported by tesseract
imagepng($img, null, 0);
$size = ob_get_length();
$data = ob_get_clean();
$ocr = new TesseractOCR();
$ocr->imageData($data, $size);
$ocr->run();
// Save the Output to PDF file
echo (new TesseractOCR('img.png'))
->configFile('pdf')
->setOutputFile('/PATH_TO_MY_OUTPUTFILE/searchable.pdf')
->run();