Bibliothèque PHP Open Source pour l'analyse de fichiers PDF

L'API PHP gratuite permet aux développeurs d'analyser des fichiers PDF, d'extraire des données et des éléments à partir de fichiers PDF.

PDFParser est une bibliothèque PHP open source qui permet aux développeurs de logiciels d'analyser des fichiers PDF et d'extraire des éléments PDF dans leurs propres applications PHP. PDFParser est construit au-dessus de l'analyseur TCPDF. PDFParser est une bibliothèque PHP autonome qui fournit divers outils pour extraire des données d'un fichier PDF.

Portable Document Format (PDF) est l'un des formats de documents préférés dans le monde et est toujours très populaire. L'API prend en charge plusieurs fonctionnalités importantes pour l'analyse PDF, telles que le chargement et l'analyse d'objets et d'en-têtes PDF, l'extraction de métadonnées, l'extraction de texte à partir de pages commandées, la prise en charge de PDF compressés, la prise en charge de l'encodage de contenu hexa et octal, et bien d'autres.

En bref

Un aperçu des fonctionnalités de PDFParser.

Présentation des fonctionnalités

Charger des objets PDF
Analyser des objets
Analyser les en-têtes
Extraire les métadonnées
Extraire du texte
PDF compressé
encodage du jeu de caractères
Codage hexadécimal
Encodage octal

Analyseur PDF

PDFParser prend en charge le format de fichier PDF ainsi que les formats standard de l'industrie pour l'exportation.

Lecteur

Écrivain

TXT, HTML

Analyseur PDF

Indépendance de la plate-forme

PDFParser ne nécessite que l'environnement d'exécution PHP.

PHP 5.3 et supérieur.

Analyseur PDF

Premiers pas avec PDFParser

La bibliothèque PDFParser sera automatiquement téléchargée via la ligne de commande composer. Ajoutez PDFParser à votre fichier composer.json.

Ajouter une commande à composer.json

 { 
  "require": {
  "smalot/pdfparser": "*"
  } 
 }

Utilisez le composeur pour télécharger le groupe en exécutant la commande :

Analyser le fichier PDF et extraire le texte de chaque page via l'API PHP

PDFParser fournit la fonctionnalité qui permet aux programmeurs informatiques d'analyser des documents PDF dans leur propre application PHP. Tout d'abord, vous devez construire les objets nécessaires puis charger le fichier PDF, le fichier analysé peut être stocké sur une variable, puis cet objet vous permettra de gérer le PDF page par page. Maintenant, vous pouvez facilement extraire du texte de l'intégralité du PDF ou séparément par pages. Une fois le document analysé, vous pouvez facilement extraire le texte de chaque page du PDF.

Analyser un fichier PDF via PHP

  // Include Composer autoloader if not already done.
  include 'vendor/autoload.php';
  // Parse Base64 encoded PDF string and build necessary objects.
  $parser = new \Smalot\PdfParser\Parser();
  $pdf  = $parser->parseContent(base64_decode($base64PDF));
  $text = $pdf->getText();
  echo $text;

Extraire les métadonnées d'un document PDF

Metadata includes very important information about the PDF document and its contents such as Author, copyright information, creator, Creation Date and more. PDFParser gives developers the power to extract metadata from a PDF document. Once the document is parsed you can easily retrieve all details from the PDF file.

Extraire les métadonnées du PDF via l'API PHP

  // Metadata Extraction from PDF 
  $metaData = $pdf->getDetails();
  Array
  (
   [Producer] => Adobe Acrobat
   [CreatedOn] => 2022-01-28T16:36:11+00:00
   [Pages] => 35
  )

Extraire le texte d'une page PDF spécifique

PDFParser permet aux développeurs d'extraire facilement du texte de pages spécifiques en utilisant une petite quantité de code. L'API donne aux développeurs la possibilité de gérer séparément chaque page du document PDF. Les développeurs peuvent parcourir le tableau de pages et récupérer le texte de la page de leur choix. L'ordre du tableau est le même que celui du document PDF.

Extraire le texte d'un PDF via PHP

  // Extract Text from PDF via PHP
  $text = $pdf->getText();
  // or extract the text of a specific page (in this case the first page)
  $text = $pdf->getPages()[0]->getText();