1. Produse
  2.   PDF
  3.   PHP
  4.   PDFParser
 
  

Bibliotecă PHP cu sursă deschisă pentru analizarea fișierelor PDF

API-ul PHP gratuit permite dezvoltatorilor să analizeze fișiere PDF, să extragă date și elemente din PDF-uri.

PDFParser este o bibliotecă PHP cu sursă deschisă care permite dezvoltatorilor de software să analizeze fișiere PDF și să extragă elemente PDF în propriile aplicații PHP. PDFParser este construit pe parserul TCPDF. PDFParser este o bibliotecă PHP autonomă care oferă diverse instrumente pentru a extrage date dintr-un fișier PDF.

Portable Document Format (PDF) este unul dintre formatele de documente preferate din lume și este încă foarte popular. API-ul acceptă mai multe funcții importante pentru analiza PDF, cum ar fi încărcarea și analizarea obiectelor și antetelor PDF, extragerea metadatelor, extragerea textului din pagini ordonate, suport PDF comprimat, suport pentru codificarea conținutului hexa și octal și multe altele.

.

Previous Next

Noțiuni introductive cu PDFParser

Biblioteca PDFParser va fi descărcată automat prin linia de comandă composer. Adăugați PDFParser în fișierul dvs. composer.json.

Adăugați comanda la composer.json

 { 
  "require": {
  "smalot/pdfparser": "*"
  } 
 } 

Utilizați compozitorul pentru a descărca pachetul rulând comanda:

Analizați fișierul PDF și extrageți text din fiecare pagină prin API-ul PHP

PDFParser oferă funcționalitatea care permite programatorilor să analizeze documente PDF în cadrul propriei aplicații PHP. Mai întâi, trebuie să construiți obiectele necesare, apoi să încărcați fișierul PDF, fișierul analizat poate fi stocat pe o variabilă și apoi acest obiect vă va permite să gestionați PDF-ul pagină cu pagină. Acum puteți extrage cu ușurință text din întregul PDF sau separat pe pagini. Odată ce documentul este analizat, puteți extrage cu ușurință text din fiecare pagină a PDF-ului.

Analizați fișierul PDF prin PHP

  // Include Composer autoloader if not already done.
  include 'vendor/autoload.php';
  // Parse Base64 encoded PDF string and build necessary objects.
  $parser = new \Smalot\PdfParser\Parser();
  $pdf  = $parser->parseContent(base64_decode($base64PDF));
  $text = $pdf->getText();
  echo $text;

Extrageți metadatele din documentul PDF

Metadata includes very important information about the PDF document and its contents such as Author, copyright information, creator, Creation Date and more. PDFParser gives developers the power to extract metadata from a PDF document. Once the document is parsed you can easily retrieve all details from the PDF file.

Extrageți metadatele din PDF prin API-ul PHP

  // Metadata Extraction from PDF 
  $metaData = $pdf->getDetails();
  Array
  (
   [Producer] => Adobe Acrobat
   [CreatedOn] => 2022-01-28T16:36:11+00:00
   [Pages] => 35
  )

Extrageți text dintr-o anumită pagină PDF

PDFParser permite dezvoltatorilor să extragă text din anumite pagini cu ușurință, folosind o cantitate mică de cod. API-ul oferă dezvoltatorilor posibilitatea de a gestiona separat fiecare pagină a documentului PDF. Dezvoltatorii pot itera prin matricea de pagini și pot prelua text din pagina pe care o au ales. Ordinea matricei este aceeași cu cea a documentului PDF.

Extrageți text din PDF prin PHP

  // Extract Text from PDF via PHP
  $text = $pdf->getText();
  // or extract the text of a specific page (in this case the first page)
  $text = $pdf->getPages()[0]->getText();
 Română