کتابخانه PHP منبع باز برای تجزیه فایل های PDF
API رایگان PHP به توسعه دهندگان اجازه می دهد تا فایل های PDF را تجزیه و تحلیل کنند، داده ها و عناصر را از فایل های PDF استخراج کنند.
PDFParser یک کتابخانه PHP منبع باز است که به توسعه دهندگان نرم افزار اجازه می دهد فایل های PDF را تجزیه و عناصر PDF را در برنامه های PHP خود استخراج کنند. PDFParser بر روی تجزیه کننده TCPDF ساخته شده است. PDFParser یک کتابخانه مستقل PHP است که ابزارهای مختلفی را برای استخراج داده ها از یک فایل PDF فراهم می کند.
فرمت سند قابل حمل (PDF) یکی از فرمت های مورد علاقه سند در جهان است و هنوز هم بسیار محبوب است. API از چندین ویژگی مهم برای تجزیه PDF پشتیبانی می کند، مانند بارگیری و تجزیه اشیاء و هدرهای PDF، استخراج ابرداده، استخراج متن از صفحات سفارش داده شده، پشتیبانی از PDF فشرده، پشتیبانی از کدگذاری محتوای هگزا و هشتگانه و بسیاری موارد دیگر.
.
شروع کار با PDFParser
کتابخانه PDFParser به طور خودکار از طریق خط فرمان composer دانلود میشود. PDFParser را به فایل composer.json خود اضافه کنید.
دستور را به composer.json اضافه کنید
{
"require": {
"smalot/pdfparser": "*"
}
}
با اجرای دستور از composer برای دانلود بسته نرم افزاری استفاده کنید:
تجزیه و تحلیل فایل PDF و استخراج متن از هر صفحه از طریق PHP API
PDFParser عملکردی را ارائه می دهد که برنامه نویسان رایانه را قادر می سازد اسناد PDF را در برنامه PHP خود تجزیه کنند. ابتدا باید اشیاء لازم را بسازید سپس فایل PDF را بارگیری کنید، فایل تجزیه شده را می توان روی یک متغیر ذخیره کرد و سپس این شی به شما اجازه می دهد تا صفحه به صفحه PDF را مدیریت کنید. اکنون می توانید به راحتی متن را از کل PDF یا به طور جداگانه بر اساس صفحات استخراج کنید. پس از تجزیه سند اکنون می توانید به راحتی متن را از هر صفحه PDF استخراج کنید.
تجزیه فایل PDF از طریق PHP
// Include Composer autoloader if not already done.
include 'vendor/autoload.php';
// Parse Base64 encoded PDF string and build necessary objects.
$parser = new \Smalot\PdfParser\Parser();
$pdf = $parser->parseContent(base64_decode($base64PDF));
$text = $pdf->getText();
echo $text;
استخراج فراداده از سند PDF
Metadata includes very important information about the PDF document and its contents such as Author, copyright information, creator, Creation Date and more. PDFParser gives developers the power to extract metadata from a PDF document. Once the document is parsed you can easily retrieve all details from the PDF file.
استخراج متادیتا از PDF از طریق PHP API
// Metadata Extraction from PDF
$metaData = $pdf->getDetails();
Array
(
[Producer] => Adobe Acrobat
[CreatedOn] => 2022-01-28T16:36:11+00:00
[Pages] => 35
)
متن را از یک صفحه PDF خاص استخراج کنید
PDFParser به توسعه دهندگان اجازه می دهد تا با استفاده از مقدار کمی کد، متن را از صفحات خاص به راحتی استخراج کنند. API به توسعه دهندگان این امکان را می دهد که هر صفحه از سند PDF را به طور جداگانه مدیریت کنند. توسعه دهندگان می توانند از طریق آرایه صفحات تکرار کنند و می توانند متن را از صفحه مورد نظر خود بازیابی کنند. ترتیب آرایه مانند سند PDF است.
استخراج متن از PDF از طریق PHP
// Extract Text from PDF via PHP
$text = $pdf->getText();
// or extract the text of a specific page (in this case the first page)
$text = $pdf->getPages()[0]->getText();