Atvērtā pirmkoda PHP bibliotēka PDF failu parsēšanai
Bezmaksas PHP API ļauj izstrādātājiem parsēt PDF failus, izvilkt datus un elementus no PDF failiem.
PDFParser ir atvērtā pirmkoda PHP bibliotēka, kas ļauj programmatūras izstrādātājiem parsēt PDF failus un izvilkt PDF elementus savās PHP lietojumprogrammās. PDFParser ir balstīts uz TCPDF parsētāju. PDFParser ir atsevišķa PHP bibliotēka, kas nodrošina dažādus rīkus datu iegūšanai no PDF faila.
Portable Document Format (PDF) ir viens no pasaulē iecienītākajiem dokumentu formātiem un joprojām ir ļoti populārs. API atbalsta vairākas svarīgas PDF parsēšanas funkcijas, piemēram, PDF objektu un galveņu ielādi un parsēšanu, metadatu izvilkšanu, teksta izvilkšanu no sakārtotām lapām, saspiesta PDF atbalstu, Hexa un oktāla satura kodēšanas atbalstu un daudz ko citu.
.
Darba sākšana ar PDFParser
PDFParser bibliotēka tiks automātiski lejupielādēta, izmantojot komandrindu composer. Pievienojiet PDFParser savam composer.json failam.
Pievienojiet komandu failam composer.json
{
"require": {
"smalot/pdfparser": "*"
}
}
Izmantojiet komponistu, lai lejupielādētu paketi, izpildot komandu:
Parsējiet PDF failu un izņemiet tekstu no katras lapas, izmantojot PHP API
PDFParser nodrošina funkcionalitāti, kas ļauj datorprogrammētājiem parsēt PDF dokumentus savā PHP lietojumprogrammā. Pirmkārt, jums ir jāizveido nepieciešamie objekti, pēc tam jāielādē PDF fails, parsēto failu var saglabāt mainīgajā, un pēc tam šis objekts ļaus jums apstrādāt PDF lapu pa lappusei. Tagad varat viegli izvilkt tekstu no visa PDF faila vai atsevišķi pa lapām. Kad dokuments ir parsēts, varat viegli izvilkt tekstu no katras PDF lapas.
Parsējiet PDF failu, izmantojot PHP
// Include Composer autoloader if not already done.
include 'vendor/autoload.php';
// Parse Base64 encoded PDF string and build necessary objects.
$parser = new \Smalot\PdfParser\Parser();
$pdf = $parser->parseContent(base64_decode($base64PDF));
$text = $pdf->getText();
echo $text;
Izņemiet metadatus no PDF dokumenta
Metadata includes very important information about the PDF document and its contents such as Author, copyright information, creator, Creation Date and more. PDFParser gives developers the power to extract metadata from a PDF document. Once the document is parsed you can easily retrieve all details from the PDF file.
Izņemiet metadatus no PDF, izmantojot PHP API
// Metadata Extraction from PDF
$metaData = $pdf->getDetails();
Array
(
[Producer] => Adobe Acrobat
[CreatedOn] => 2022-01-28T16:36:11+00:00
[Pages] => 35
)
Izņemiet tekstu no noteiktas PDF lapas
PDFParser ļauj izstrādātājiem viegli iegūt tekstu no konkrētām lapām, izmantojot nelielu koda daudzumu. API sniedz izstrādātājiem iespēju atsevišķi apstrādāt katru PDF dokumenta lapu. Izstrādātāji var atkārtot lapu masīvu un izgūt tekstu no paša izvēlētās lapas. Masīva secība ir tāda pati kā PDF dokumentā.
Izņemiet tekstu no PDF, izmantojot PHP
// Extract Text from PDF via PHP
$text = $pdf->getText();
// or extract the text of a specific page (in this case the first page)
$text = $pdf->getPages()[0]->getText();