Open-Source-PHP-Bibliothek zum Analysieren von PDF-Dateien
Mit der kostenlosen PHP-API können Entwickler PDF-Dateien parsen, Daten und Elemente aus PDFs extrahieren.
PDFParser ist eine Open-Source-PHP-Bibliothek, die es Softwareentwicklern ermöglicht, PDF-Dateien zu parsen und PDF-Elemente in ihren eigenen PHP-Anwendungen zu extrahieren. PDFParser baut auf dem TCPDF-Parser auf. PDFParser ist eine eigenständige PHP-Bibliothek, die verschiedene Tools zum Extrahieren von Daten aus einer PDF-Datei bereitstellt.
Portable Document Format (PDF) ist eines der beliebtesten Dokumentformate der Welt und immer noch sehr beliebt. Die API unterstützt mehrere wichtige Funktionen für das PDF-Parsing, wie z. B. das Laden und Analysieren von PDF-Objekten und -Headern, das Extrahieren von Metadaten, das Extrahieren von Text aus geordneten Seiten, die Unterstützung komprimierter PDFs, die Unterstützung der Kodierung von Hexa- und Oktalinhalten und vieles mehr.
.
Erste Schritte mit PDFParser
Die PDFParser-Bibliothek wird automatisch über die composer-Befehlszeile heruntergeladen. Fügen Sie Ihrer composer.json-Datei PDFParser hinzu.
Fügen Sie den Befehl „composer.json“ hinzu
{
"require": {
"smalot/pdfparser": "*"
}
}
Verwenden Sie den Composer, um das Bundle herunterzuladen, indem Sie den folgenden Befehl ausführen:
PDF-Datei analysieren und Text von jeder Seite über die PHP-API extrahieren
PDFParser bietet die Funktionalität, die es Computerprogrammierern ermöglicht, PDF-Dokumente in ihrer eigenen PHP-Anwendung zu parsen. Zuerst müssen Sie die erforderlichen Objekte erstellen, dann die PDF-Datei laden, die geparste Datei kann in einer Variablen gespeichert werden, und dann ermöglicht Ihnen dieses Objekt, die PDF-Datei Seite für Seite zu handhaben. Jetzt können Sie ganz einfach Text aus dem gesamten PDF oder seitenweise extrahieren. Sobald das Dokument geparst ist, können Sie ganz einfach Text aus jeder Seite der PDF-Datei extrahieren.
PDF-Datei über PHP parsen
// Include Composer autoloader if not already done.
include 'vendor/autoload.php';
// Parse Base64 encoded PDF string and build necessary objects.
$parser = new \Smalot\PdfParser\Parser();
$pdf = $parser->parseContent(base64_decode($base64PDF));
$text = $pdf->getText();
echo $text;
Metadaten aus PDF-Dokument extrahieren
Metadata includes very important information about the PDF document and its contents such as Author, copyright information, creator, Creation Date and more. PDFParser gives developers the power to extract metadata from a PDF document. Once the document is parsed you can easily retrieve all details from the PDF file.
Extrahieren Sie Metadaten aus PDF über die PHP-API
// Metadata Extraction from PDF
$metaData = $pdf->getDetails();
Array
(
[Producer] => Adobe Acrobat
[CreatedOn] => 2022-01-28T16:36:11+00:00
[Pages] => 35
)
Text aus einer bestimmten PDF-Seite extrahieren
PDFParser ermöglicht es Entwicklern, mit wenig Code mühelos Text aus bestimmten Seiten zu extrahieren. Die API gibt Entwicklern die Möglichkeit, jede Seite des PDF-Dokuments separat zu behandeln. Entwickler können das Array von Seiten durchlaufen und Text von der Seite ihrer Wahl abrufen. Die Reihenfolge des Arrays ist die gleiche wie die des PDF-Dokuments.
Extrahieren Sie Text aus PDF über PHP
// Extract Text from PDF via PHP
$text = $pdf->getText();
// or extract the text of a specific page (in this case the first page)
$text = $pdf->getPages()[0]->getText();