ספריית PHP בקוד פתוח לניתוח קבצי PDF

PHP API בחינם מאפשר למפתחים לנתח קבצי PDF, לחלץ נתונים ואלמנטים מקובצי PDF.

PDFParser היא ספריית PHP בקוד פתוח המאפשרת למפתחי תוכנה לנתח קבצי PDF ולחלץ רכיבי PDF בתוך יישומי PHP משלהם. PDFParser בנוי על מנתח TCPDF. PDFParser היא ספריית PHP עצמאית המספקת כלים שונים לחילוץ נתונים מקובץ PDF.

פורמט מסמכים נייד (PDF) הוא אחד מפורמטי המסמכים האהובים בעולם ועדיין פופולרי מאוד. ה-API תומך במספר תכונות חשובות לניתוח PDF, כגון טעינה וניתוח של אובייקטים וכותרות PDF, חילוץ מטא נתונים, חילוץ טקסט מדפים מסודרים, תמיכה ב-PDF דחוס, תמיכה בקידוד תוכן אוקטלי וקסה ועוד רבים נוספים.

במבט ראשון

סקירה כללית של תכונות PDFParser.

סקירת תכונות

טען אובייקטי PDF
נתח חפצים
ניתוח כותרות
חלץ מטא נתונים
חלץ טקסט
PDF דחוס
קידוד ערכת תווים
קידוד משושה
קידוד אוקטלי

PDFParser

PDFParser תומך בפורמט קובץ PDF וכן בפורמטים סטנדרטיים בתעשייה לייצוא.

קוֹרֵא

סוֹפֵר

TXT, HTML

PDFParser

עצמאות פלטפורמה

PDFParser דורש זמן ריצה של PHP בלבד.

PHP 5.3 ומעלה.

PDFParser

תחילת העבודה עם PDFParser

ספריית PDFParser תוריד אוטומטית דרך שורת הפקודה composer. הוסף את PDFParser לקובץ composer.json שלך.

הוסף פקודה ל-composer.json

 { 
  "require": {
  "smalot/pdfparser": "*"
  } 
 }

השתמש במלחין כדי להוריד את החבילה על ידי הפעלת הפקודה:

נתח קובץ PDF וחלץ טקסט מכל עמוד באמצעות PHP API

PDFParser מספק את הפונקציונליות המאפשרת למתכנתי מחשבים לנתח מסמכי PDF בתוך יישום PHP משלהם. ראשית, עליך לבנות אובייקטים נחוצים ואז לטעון את קובץ ה-PDF, ניתן לאחסן את הקובץ המנתח על משתנה ואז אובייקט זה יאפשר לך לטפל ב-PDF עמוד אחר עמוד. עכשיו אתה יכול בקלות לחלץ טקסט מכל ה-PDF או בנפרד לפי דפים. לאחר ניתוח המסמך כעת תוכל לחלץ בקלות טקסט מכל עמוד ב-PDF.

ניתוח קובץ PDF באמצעות PHP

  // Include Composer autoloader if not already done.
  include 'vendor/autoload.php';
  // Parse Base64 encoded PDF string and build necessary objects.
  $parser = new \Smalot\PdfParser\Parser();
  $pdf  = $parser->parseContent(base64_decode($base64PDF));
  $text = $pdf->getText();
  echo $text;

חלץ מטא נתונים ממסמך PDF

Metadata includes very important information about the PDF document and its contents such as Author, copyright information, creator, Creation Date and more. PDFParser gives developers the power to extract metadata from a PDF document. Once the document is parsed you can easily retrieve all details from the PDF file.

חלץ מטא נתונים מ-PDF באמצעות PHP API

  // Metadata Extraction from PDF 
  $metaData = $pdf->getDetails();
  Array
  (
   [Producer] => Adobe Acrobat
   [CreatedOn] => 2022-01-28T16:36:11+00:00
   [Pages] => 35
  )

חלץ טקסט מדף PDF ספציפי

PDFParser מאפשר למפתחים לחלץ טקסט מדפים ספציפיים בקלות על ידי שימוש בכמות קטנה של קוד. ה-API נותן למפתחים את היכולת לטפל בנפרד בכל עמוד של מסמך ה-PDF. מפתחים יכולים לעבור דרך מערך הדפים ויכולים לאחזר טקסט מהעמוד לפי בחירתם. סדר המערך זהה לזה של מסמך ה-PDF.

חלץ טקסט מ-PDF באמצעות PHP

  // Extract Text from PDF via PHP
  $text = $pdf->getText();
  // or extract the text of a specific page (in this case the first page)
  $text = $pdf->getPages()[0]->getText();