Libreria PHP open source per l'analisi di file PDF
L'API PHP gratuita consente agli sviluppatori di analizzare file PDF, estrarre dati ed elementi dai PDF.
PDFParser è una libreria PHP open source che consente agli sviluppatori di software di analizzare file PDF ed estrarre elementi PDF all'interno delle proprie applicazioni PHP. PDFParser è basato sul parser TCPDF. PDFParser è una libreria PHP autonoma che fornisce vari strumenti per estrarre dati da un file PDF.
Portable Document Format (PDF) è uno dei formati di documenti preferiti al mondo ed è ancora molto popolare. L'API supporta diverse funzionalità importanti per l'analisi PDF, come il caricamento e l'analisi di oggetti PDF e intestazioni, estrazione di metadati, estrazione di testo da pagine ordinate, supporto PDF compresso, supporto per la codifica di contenuti esadecimali e ottali e molti altri.
.
Guida introduttiva a PDFParser
La libreria PDFParser verrà scaricata automaticamente tramite la riga di comando compositore. Aggiungi PDFParser al tuo file composer.json.
Aggiungi comando a composer.json
{
"require": {
"smalot/pdfparser": "*"
}
}
Usa il compositore per scaricare il bundle eseguendo il comando:
Analizza file PDF ed estrai testo da ogni pagina tramite l'API PHP
PDFParser fornisce la funzionalità che consente ai programmatori di computer di analizzare i documenti PDF all'interno della propria applicazione PHP. Innanzitutto, devi creare gli oggetti necessari, quindi caricare il file PDF, il file analizzato può essere archiviato su una variabile e quindi questo oggetto ti consentirà di gestire il PDF pagina per pagina. Ora puoi estrarre facilmente il testo dall'intero PDF o separatamente per pagine. Una volta che il documento è stato analizzato, ora puoi estrarre facilmente il testo da ogni pagina del PDF.
Analizza file PDF tramite PHP
// Include Composer autoloader if not already done.
include 'vendor/autoload.php';
// Parse Base64 encoded PDF string and build necessary objects.
$parser = new \Smalot\PdfParser\Parser();
$pdf = $parser->parseContent(base64_decode($base64PDF));
$text = $pdf->getText();
echo $text;
Estrai metadati dal documento PDF
Metadata includes very important information about the PDF document and its contents such as Author, copyright information, creator, Creation Date and more. PDFParser gives developers the power to extract metadata from a PDF document. Once the document is parsed you can easily retrieve all details from the PDF file.
Estrai metadati da PDF tramite l'API PHP
// Metadata Extraction from PDF
$metaData = $pdf->getDetails();
Array
(
[Producer] => Adobe Acrobat
[CreatedOn] => 2022-01-28T16:36:11+00:00
[Pages] => 35
)
Estrai testo da una pagina PDF specifica
PDFParser consente agli sviluppatori di estrarre facilmente il testo da pagine specifiche utilizzando una piccola quantità di codice. L'API offre agli sviluppatori la possibilità di gestire separatamente ogni pagina del documento PDF. Gli sviluppatori possono scorrere l'array di pagine e possono recuperare il testo dalla pagina di loro scelta. L'ordine dell'array è lo stesso del documento PDF.
Estrai testo da PDF tramite PHP
// Extract Text from PDF via PHP
$text = $pdf->getText();
// or extract the text of a specific page (in this case the first page)
$text = $pdf->getPages()[0]->getText();