Libreria PHP open source per l'analisi di file PDF

L'API PHP gratuita consente agli sviluppatori di analizzare file PDF, estrarre dati ed elementi dai PDF.

PDFParser è una libreria PHP open source che consente agli sviluppatori di software di analizzare file PDF ed estrarre elementi PDF all'interno delle proprie applicazioni PHP. PDFParser è basato sul parser TCPDF. PDFParser è una libreria PHP autonoma che fornisce vari strumenti per estrarre dati da un file PDF.

Portable Document Format (PDF) è uno dei formati di documenti preferiti al mondo ed è ancora molto popolare. L'API supporta diverse funzionalità importanti per l'analisi PDF, come il caricamento e l'analisi di oggetti PDF e intestazioni, estrazione di metadati, estrazione di testo da pagine ordinate, supporto PDF compresso, supporto per la codifica di contenuti esadecimali e ottali e molti altri.

A prima vista

Una panoramica delle funzionalità di PDFParser.

Panoramica delle caratteristiche

Carica oggetti PDF
Analizza gli oggetti
Analizza le intestazioni
Estrai metadati
Estrai testo
PDF compresso
codifica del set di caratteri
Codifica esadecimale
Codifica ottale

Analizzatore PDF

PDFParser supporta il formato di file PDF e i formati standard del settore per l'esportazione.

Lettore

scrittore

TXT, HTML

Analizzatore PDF

Indipendenza dalla piattaforma

PDFParser richiede solo il runtime PHP.

PHP 5.3 e versioni successive.

Analizzatore PDF

Guida introduttiva a PDFParser

La libreria PDFParser verrà scaricata automaticamente tramite la riga di comando compositore. Aggiungi PDFParser al tuo file composer.json.

Aggiungi comando a composer.json

 { 
  "require": {
  "smalot/pdfparser": "*"
  } 
 }

Usa il compositore per scaricare il bundle eseguendo il comando:

Analizza file PDF ed estrai testo da ogni pagina tramite l'API PHP

PDFParser fornisce la funzionalità che consente ai programmatori di computer di analizzare i documenti PDF all'interno della propria applicazione PHP. Innanzitutto, devi creare gli oggetti necessari, quindi caricare il file PDF, il file analizzato può essere archiviato su una variabile e quindi questo oggetto ti consentirà di gestire il PDF pagina per pagina. Ora puoi estrarre facilmente il testo dall'intero PDF o separatamente per pagine. Una volta che il documento è stato analizzato, ora puoi estrarre facilmente il testo da ogni pagina del PDF.

Analizza file PDF tramite PHP

  // Include Composer autoloader if not already done.
  include 'vendor/autoload.php';
  // Parse Base64 encoded PDF string and build necessary objects.
  $parser = new \Smalot\PdfParser\Parser();
  $pdf  = $parser->parseContent(base64_decode($base64PDF));
  $text = $pdf->getText();
  echo $text;

Estrai metadati dal documento PDF

Metadata includes very important information about the PDF document and its contents such as Author, copyright information, creator, Creation Date and more. PDFParser gives developers the power to extract metadata from a PDF document. Once the document is parsed you can easily retrieve all details from the PDF file.

Estrai metadati da PDF tramite l'API PHP

  // Metadata Extraction from PDF 
  $metaData = $pdf->getDetails();
  Array
  (
   [Producer] => Adobe Acrobat
   [CreatedOn] => 2022-01-28T16:36:11+00:00
   [Pages] => 35
  )

Estrai testo da una pagina PDF specifica

PDFParser consente agli sviluppatori di estrarre facilmente il testo da pagine specifiche utilizzando una piccola quantità di codice. L'API offre agli sviluppatori la possibilità di gestire separatamente ogni pagina del documento PDF. Gli sviluppatori possono scorrere l'array di pagine e possono recuperare il testo dalla pagina di loro scelta. L'ordine dell'array è lo stesso del documento PDF.

Estrai testo da PDF tramite PHP

  // Extract Text from PDF via PHP
  $text = $pdf->getText();
  // or extract the text of a specific page (in this case the first page)
  $text = $pdf->getPages()[0]->getText();