کتابخانه PHP منبع باز برای تجزیه فایل های PDF

API رایگان PHP به توسعه دهندگان اجازه می دهد تا فایل های PDF را تجزیه و تحلیل کنند، داده ها و عناصر را از فایل های PDF استخراج کنند.

PDFParser یک کتابخانه PHP منبع باز است که به توسعه دهندگان نرم افزار اجازه می دهد فایل های PDF را تجزیه و عناصر PDF را در برنامه های PHP خود استخراج کنند. PDFParser بر روی تجزیه کننده TCPDF ساخته شده است. PDFParser یک کتابخانه مستقل PHP است که ابزارهای مختلفی را برای استخراج داده ها از یک فایل PDF فراهم می کند.

فرمت سند قابل حمل (PDF) یکی از فرمت های مورد علاقه سند در جهان است و هنوز هم بسیار محبوب است. API از چندین ویژگی مهم برای تجزیه PDF پشتیبانی می کند، مانند بارگیری و تجزیه اشیاء و هدرهای PDF، استخراج ابرداده، استخراج متن از صفحات سفارش داده شده، پشتیبانی از PDF فشرده، پشتیبانی از کدگذاری محتوای هگزا و هشتگانه و بسیاری موارد دیگر.

در یک نگاه

مروری بر ویژگی های PDFParser.

بررسی اجمالی ویژگی ها

بارگیری اشیاء PDF
اشیاء را تجزیه کنید
هدرها را تجزیه کنید
استخراج فراداده
متن را استخراج کنید
PDF فشرده
رمزگذاری مجموعه نویسه ها
رمزگذاری هگزا
رمزگذاری هشتگانه

PDFParser

PDFParser از فرمت فایل PDF و همچنین فرمت های استاندارد صنعتی برای صادرات پشتیبانی می کند.

خواننده

نویسنده

TXT, HTML

PDFParser

سکوی استقلال

PDFParser فقط به زمان اجرا PHP نیاز دارد.

PHP 5.3 و بالاتر.

PDFParser

شروع کار با PDFParser

کتابخانه PDFParser به طور خودکار از طریق خط فرمان composer دانلود می‌شود. PDFParser را به فایل composer.json خود اضافه کنید.

دستور را به composer.json اضافه کنید

 { 
  "require": {
  "smalot/pdfparser": "*"
  } 
 }

با اجرای دستور از composer برای دانلود بسته نرم افزاری استفاده کنید:

تجزیه و تحلیل فایل PDF و استخراج متن از هر صفحه از طریق PHP API

PDFParser عملکردی را ارائه می دهد که برنامه نویسان رایانه را قادر می سازد اسناد PDF را در برنامه PHP خود تجزیه کنند. ابتدا باید اشیاء لازم را بسازید سپس فایل PDF را بارگیری کنید، فایل تجزیه شده را می توان روی یک متغیر ذخیره کرد و سپس این شی به شما اجازه می دهد تا صفحه به صفحه PDF را مدیریت کنید. اکنون می توانید به راحتی متن را از کل PDF یا به طور جداگانه بر اساس صفحات استخراج کنید. پس از تجزیه سند اکنون می توانید به راحتی متن را از هر صفحه PDF استخراج کنید.

تجزیه فایل PDF از طریق PHP

  // Include Composer autoloader if not already done.
  include 'vendor/autoload.php';
  // Parse Base64 encoded PDF string and build necessary objects.
  $parser = new \Smalot\PdfParser\Parser();
  $pdf  = $parser->parseContent(base64_decode($base64PDF));
  $text = $pdf->getText();
  echo $text;

استخراج فراداده از سند PDF

Metadata includes very important information about the PDF document and its contents such as Author, copyright information, creator, Creation Date and more. PDFParser gives developers the power to extract metadata from a PDF document. Once the document is parsed you can easily retrieve all details from the PDF file.

استخراج متادیتا از PDF از طریق PHP API

  // Metadata Extraction from PDF 
  $metaData = $pdf->getDetails();
  Array
  (
   [Producer] => Adobe Acrobat
   [CreatedOn] => 2022-01-28T16:36:11+00:00
   [Pages] => 35
  )

متن را از یک صفحه PDF خاص استخراج کنید

PDFParser به توسعه دهندگان اجازه می دهد تا با استفاده از مقدار کمی کد، متن را از صفحات خاص به راحتی استخراج کنند. API به توسعه دهندگان این امکان را می دهد که هر صفحه از سند PDF را به طور جداگانه مدیریت کنند. توسعه دهندگان می توانند از طریق آرایه صفحات تکرار کنند و می توانند متن را از صفحه مورد نظر خود بازیابی کنند. ترتیب آرایه مانند سند PDF است.

استخراج متن از PDF از طریق PHP

  // Extract Text from PDF via PHP
  $text = $pdf->getText();
  // or extract the text of a specific page (in this case the first page)
  $text = $pdf->getPages()[0]->getText();