Atvirojo kodo PHP biblioteka, skirta analizuoti PDF failus

Nemokama PHP API leidžia kūrėjams analizuoti PDF failus, ištraukti duomenis ir elementus iš PDF failų.

PDFParser yra atvirojo kodo PHP biblioteka, leidžianti programinės įrangos kūrėjams analizuoti PDF failus ir išgauti PDF elementus savo PHP programose. PDFParser sukurtas ant TCPDF analizatoriaus. PDFParser yra atskira PHP biblioteka, teikianti įvairius įrankius duomenims iš PDF failo išgauti.

Portable Document Format (PDF) yra vienas mėgstamiausių pasaulyje dokumentų formatų ir vis dar labai populiarus. API palaiko keletą svarbių PDF analizavimo funkcijų, pvz., PDF objektų ir antraščių įkėlimą ir analizavimą, metaduomenų ištraukimą, teksto ištraukimą iš užsakytų puslapių, suspausto PDF palaikymą, šešioliktainio ir aštuntainio turinio kodavimo palaikymą ir daug daugiau.

Žvilgsniu

PDFParser funkcijų apžvalga.

Savybių apžvalga

Įkelti PDF objektus
Išanalizuoti objektus
Išnagrinėti antraštes
Išskleiskite metaduomenis
Ištraukite tekstą
Suspaustas PDF
simbolių rinkinio kodavimas
Hexa kodavimas
Aštuontainis kodavimas

PDFParser

PDFParser palaiko PDF failo formatus, taip pat pramonės standartinius eksporto formatus.

Skaitytojas

Rašytojas

TXT, HTML

PDFParser

Platformos nepriklausomybė

„PDFParser“ reikia tik PHP vykdymo laiko.

PHP 5.3 ir naujesnės versijos.

PDFParser

Darbo su PDFParser pradžia

PDFParser biblioteka bus automatiškai atsisiųsta naudojant composer komandų eilutę. Pridėkite PDFParser prie savo composer.json failo.

Pridėti komandą į composer.json

 { 
  "require": {
  "smalot/pdfparser": "*"
  } 
 }

Naudokite kompozitorių, kad atsisiųstumėte paketą paleisdami komandą:

Išnagrinėkite PDF failą ir ištraukite tekstą iš kiekvieno puslapio per PHP API

PDFParser suteikia funkcionalumą, leidžiantį kompiuterių programuotojams analizuoti PDF dokumentus savo PHP programoje. Pirmiausia turite sukurti reikiamus objektus, tada įkelti PDF failą, išanalizuotas failas gali būti saugomas kintamajame, o tada šis objektas leis tvarkyti PDF puslapį po puslapio. Dabar galite lengvai ištraukti tekstą iš viso PDF arba atskirai pagal puslapius. Kai dokumentas bus išanalizuotas, galite lengvai ištraukti tekstą iš kiekvieno PDF puslapio.

Išanalizuoti PDF failą per PHP

  // Include Composer autoloader if not already done.
  include 'vendor/autoload.php';
  // Parse Base64 encoded PDF string and build necessary objects.
  $parser = new \Smalot\PdfParser\Parser();
  $pdf  = $parser->parseContent(base64_decode($base64PDF));
  $text = $pdf->getText();
  echo $text;

Ištraukite metaduomenis iš PDF dokumento

Metadata includes very important information about the PDF document and its contents such as Author, copyright information, creator, Creation Date and more. PDFParser gives developers the power to extract metadata from a PDF document. Once the document is parsed you can easily retrieve all details from the PDF file.

Ištraukite metaduomenis iš PDF per PHP API

  // Metadata Extraction from PDF 
  $metaData = $pdf->getDetails();
  Array
  (
   [Producer] => Adobe Acrobat
   [CreatedOn] => 2022-01-28T16:36:11+00:00
   [Pages] => 35
  )

Ištraukite tekstą iš konkretaus PDF puslapio

PDFParser leidžia kūrėjams lengvai išgauti tekstą iš konkrečių puslapių naudojant nedidelį kodo kiekį. API suteikia kūrėjams galimybę atskirai tvarkyti kiekvieną PDF dokumento puslapį. Kūrėjai gali kartoti puslapių masyvą ir nuskaityti tekstą iš pasirinkto puslapio. Masyvo tvarka yra tokia pati kaip ir PDF dokumento.

Ištraukite tekstą iš PDF per PHP

  // Extract Text from PDF via PHP
  $text = $pdf->getText();
  // or extract the text of a specific page (in this case the first page)
  $text = $pdf->getPages()[0]->getText();