API PHP חינמי לחילוץ טקסט ומטא‑נתונים מ‑PDF ותמונות
ספריית זיהוי תווים אופטי (OCR) בקוד פתוח ב‑PHP מאפשרת לחלץ טקסט, מטא‑נתונים ו‑HTML מ‑PDF, DOCX, תמונות (JPEG, PNG) ומסמכים אחרים במספר שפות בתוך אפליקציות PHP.
בתחום פיתוח התוכנה, טיפול בטקסט מסוגים שונים של קבצים יכול להיות מורכב אך הוא משימה נפוצה. בין אם אתם יוצרים מערכת לניהול מסמכים, כלי לניתוח תוכן, או מנוע חיפוש, היכולת לחלץ טקסט מ‑PDF, מסמכי Word, גיליונות אלקטרוניים ועוד פורמטים היא קריטית. כאן ספריית PHP‑Apache‑Tika נכנסת לתמונה. Apache Tika היא ערכת כלים גמישה שנועדה לניהול משימות ניתוח תוכן. ניתן להשתמש ב‑Tika כדי לחלץ מטא‑נתונים וטקסט מסוגים שונים של קבצים כגון PDF, קבצי Microsoft Office ותמונות. Tika נכתבה במקור ב‑Java ולעיתים מתופעלת כשרת נפרד, כך שניתן לגשת אליה דרך HTTP. שיטה זו מאפשרת לשפות תכנות שונות, כגון PHP, לנצל את יכולותיה החזקות של Tika מבלי צורך לבנות תהליכי ניתוח מורכבים מאפס.
הספרייה תומכת במגוון רחב של תכונות כגון חילוץ טקסט ו‑HTML, חילוץ מטא‑נתונים, טיפול משופר בשגיאות, זיהוי OCR, מטא‑נתונים סטנדרטיים למסמכים, תמיכה במשאבים מקומיים ומרוחקים, ועוד רבים. ספריית PHP‑Apache‑Tika משמשת כגשר בין אפליקציות PHP לשרת Apache Tika. במקום לבנות מפרשים או ממירים משלכם, תוכלו להשתמש בספרייה זו כדי לשלוח מסמכים לשרת Tika ולקבל בחזרה טקסט נקי או מטא‑נתונים. כך מתפשט תהליך הפיתוח ומבטיח שהיישום שלכם ייהנה משיפורים מתמשכים של Tika ותמיכה רחבה בפורמטים. בין אם אתם מפתחים מערכת ניהול מסמכים מורכבת או כלי ניתוח תוכן קל משקל, ספריית PHP‑Apache‑Tika מספקת פתרון אמין וגמיש.
התחלה עם PHP‑Apache‑Tika
הדרך המומלצת להתקנת PHP‑Apache‑Tika היא באמצעות Composer. אנא השתמשו בפקודה הבאה להתקנה חלקה.
Install PHP‑Apache‑Tika via Composer
composer require vaites/php-apache-tikaInstall PHP‑Apache‑Tika via Github
git clone https://github.com/fizzday/OcrPHP.git You can download the compiled shared library from Github repository.
חילוץ טקסט ו‑HTML באמצעות PHP
אחת מהתכונות המרכזיות של ספריית PHP‑Apache‑Tika היא היכולת לחלץ טקסט ממגוון פורמטים של מסמכים. תכונה זו שימושית במיוחד בעת יישום פונקציות חיפוש או כלי ניתוח תוכן. הספרייה תומכת בחילוץ טקסט פשוט מהמסמכים, מה שמקל על אינדוקס, חיפוש או ניתוח תוכן. להלן קטע קוד המדגים כיצד TikaClient שולח את המסמך לשרת Tika ומקבל את תוכן הטקסט הפשוט, כך שהוא מוכן לעיבוד או אינדוקס נוסף.
How to Extract Text from a Document inside PHP Apps?
require_once 'vendor/autoload.php';
use Vaites\ApacheTika\TikaClient;
// Initialize the Tika client with the Tika server URL
$client = new TikaClient('http://localhost:9998');
// Define the path to the document (e.g., PDF, DOCX, etc.)
$filePath = '/path/to/your/document.pdf';
try {
// Extract text content from the document
$extractedText = $client->extract($filePath);
echo "Extracted Text:\n" . $extractedText;
} catch (\Exception $e) {
echo "Error extracting text: " . $e->getMessage();
}
חילוץ מטא‑נתונים באמצעות ספריית PHP
מעבר לטקסט, מסמכים רבים מכילים מטא‑נתונים חשובים כגון מידע על המחבר, תאריך יצירה וסוג הקובץ. ספריית PHP‑Apache‑Tika יכולה לחלץ מטא‑נתונים אלה, מה שמאפשר לבנות יישומים עשירים יותר. דוגמה זו מציגה כיצד לקבל מטא‑נתונים ממסמך. המערך המוחזר יכול לכלול פרטים שונים בהתאם לסוג הקובץ ותוכנו.
How to Extract Metadata using PHP Library?
require_once 'vendor/autoload.php';
use Vaites\ApacheTika\TikaClient;
// Initialize the Tika client
$client = new TikaClient('http://localhost:9998');
// Specify the document file path
$filePath = '/path/to/your/document.pdf';
try {
// Extract metadata from the document
$metadata = $client->getMetadata($filePath);
echo "Extracted Metadata:\n";
print_r($metadata);
} catch (\Exception $e) {
echo "Error extracting metadata: " . $e->getMessage();
}
טיפול בפורמטים מרובים של קבצים
הכוח של Apache Tika נובע מתמיכתו במגוון רחב של פורמטים. בין אם אתם עובדים עם PDF, DOC, תמונות או אפילו פורמטים פחות נפוצים, הספרייה מבטיחה שתוכלו לחלץ את הנתונים הדרושים מבלי לדאוג למורכבות של כל פורמט. דמיינו שאתם מפתחים מערכת ניהול מסמכים שבה משתמשים יכולים להעלות קבצים מסוגים שונים. תוכלו להשתמש בספרייה כדי לקבוע גם את התוכן וגם את המטא‑נתונים של כל קובץ: