1. Producten
  2.   PDF
  3.   PHP
  4.   PDFParser
 
  

Open Source PHP-bibliotheek voor het ontleden van PDF-bestanden

Met de gratis PHP API kunnen ontwikkelaars PDF-bestanden ontleden, gegevens en elementen uit PDF's extraheren.

PDFParser is een open source PHP-bibliotheek waarmee softwareontwikkelaars PDF-bestanden kunnen ontleden en PDF-elementen kunnen extraheren in hun eigen PHP-applicaties. PDFParser is gebouwd bovenop de TCPDF-parser. PDFParser is een zelfstandige PHP-bibliotheek die verschillende tools biedt om gegevens uit een PDF-bestand te extraheren.

Portable Document Format (PDF) is een van 's werelds favoriete documentformaten en is nog steeds erg populair. De API ondersteunt verschillende belangrijke functies voor het ontleden van PDF's, zoals het laden en ontleden van PDF-objecten en -headers, het extraheren van metadata, het extraheren van tekst van geordende pagina's, ondersteuning voor gecomprimeerde PDF, ondersteuning voor Hexa- en octale inhoudcodering en nog veel meer.

.

Previous Next

Aan de slag met PDFParser

De PDFParser-bibliotheek wordt automatisch gedownload via de opdrachtregel composer. Voeg PDFParser toe aan uw componist.json-bestand.

Voeg opdracht toe aan componist.json

 { 
  "require": {
  "smalot/pdfparser": "*"
  } 
 } 

Gebruik de componist om de bundel te downloaden door de opdracht uit te voeren:

PDF-bestand ontleden en tekst van elke pagina extraheren via PHP API

PDFParser biedt de functionaliteit waarmee computerprogrammeurs PDF-documenten kunnen ontleden in hun eigen PHP-toepassing. Eerst moet u de nodige objecten bouwen en vervolgens het PDF-bestand laden, het geparseerde bestand kan op een variabele worden opgeslagen en vervolgens kunt u met dit object de PDF pagina voor pagina afhandelen. Nu kunt u eenvoudig tekst uit de hele PDF extraheren of afzonderlijk per pagina. Zodra het document is geparseerd, kunt u eenvoudig tekst van elke pagina van de PDF extraheren.

PDF-bestand ontleden via PHP

  // Include Composer autoloader if not already done.
  include 'vendor/autoload.php';
  // Parse Base64 encoded PDF string and build necessary objects.
  $parser = new \Smalot\PdfParser\Parser();
  $pdf  = $parser->parseContent(base64_decode($base64PDF));
  $text = $pdf->getText();
  echo $text;

Metagegevens uit PDF-document extraheren

Metadata includes very important information about the PDF document and its contents such as Author, copyright information, creator, Creation Date and more. PDFParser gives developers the power to extract metadata from a PDF document. Once the document is parsed you can easily retrieve all details from the PDF file.

Metadata uit PDF extraheren via PHP API

  // Metadata Extraction from PDF 
  $metaData = $pdf->getDetails();
  Array
  (
   [Producer] => Adobe Acrobat
   [CreatedOn] => 2022-01-28T16:36:11+00:00
   [Pages] => 35
  )

Tekst extraheren van een specifieke PDF-pagina

Met PDFParser kunnen ontwikkelaars eenvoudig tekst van specifieke pagina's extraheren door een kleine hoeveelheid code te gebruiken. De API geeft ontwikkelaars de mogelijkheid om elke pagina van het PDF-document afzonderlijk te verwerken. Ontwikkelaars kunnen de reeks pagina's doorlopen en tekst ophalen van de pagina van hun keuze. De volgorde van de array is dezelfde als die van het PDF-document.

Tekst uit PDF extraheren via PHP

  // Extract Text from PDF via PHP
  $text = $pdf->getText();
  // or extract the text of a specific page (in this case the first page)
  $text = $pdf->getPages()[0]->getText();
 Dutch