Open-Source-PHP-Bibliothek zum Analysieren von PDF-Dateien

Mit der kostenlosen PHP-API können Entwickler PDF-Dateien parsen, Daten und Elemente aus PDFs extrahieren.

PDFParser ist eine Open-Source-PHP-Bibliothek, die es Softwareentwicklern ermöglicht, PDF-Dateien zu parsen und PDF-Elemente in ihren eigenen PHP-Anwendungen zu extrahieren. PDFParser baut auf dem TCPDF-Parser auf. PDFParser ist eine eigenständige PHP-Bibliothek, die verschiedene Tools zum Extrahieren von Daten aus einer PDF-Datei bereitstellt.

Portable Document Format (PDF) ist eines der beliebtesten Dokumentformate der Welt und immer noch sehr beliebt. Die API unterstützt mehrere wichtige Funktionen für das PDF-Parsing, wie z. B. das Laden und Analysieren von PDF-Objekten und -Headern, das Extrahieren von Metadaten, das Extrahieren von Text aus geordneten Seiten, die Unterstützung komprimierter PDFs, die Unterstützung der Kodierung von Hexa- und Oktalinhalten und vieles mehr.

Auf einen Blick

Eine Übersicht über die Funktionen von PDFParser.

Funktionsübersicht

PDF-Objekte laden
Analysieren Sie Objekte
Kopfzeilen parsen
Metadaten extrahieren
Texte extrahieren
Komprimiertes PDF
Zeichensatzkodierung
Hexa-Codierung
Oktale Codierung

PDFParser

PDFParser unterstützt das PDF-Dateiformat sowie branchenübliche Formate für den Export.

Leser

Schriftsteller

TXT, HTML

PDFParser

Plattformunabhängigkeit

PDFParser erfordert nur die PHP-Laufzeit.

PHP 5.3 und höher.

PDFParser

Erste Schritte mit PDFParser

Die PDFParser-Bibliothek wird automatisch über die composer-Befehlszeile heruntergeladen. Fügen Sie Ihrer composer.json-Datei PDFParser hinzu.

Fügen Sie den Befehl „composer.json“ hinzu

 { 
  "require": {
  "smalot/pdfparser": "*"
  } 
 }

Verwenden Sie den Composer, um das Bundle herunterzuladen, indem Sie den folgenden Befehl ausführen:

PDF-Datei analysieren und Text von jeder Seite über die PHP-API extrahieren

PDFParser bietet die Funktionalität, die es Computerprogrammierern ermöglicht, PDF-Dokumente in ihrer eigenen PHP-Anwendung zu parsen. Zuerst müssen Sie die erforderlichen Objekte erstellen, dann die PDF-Datei laden, die geparste Datei kann in einer Variablen gespeichert werden, und dann ermöglicht Ihnen dieses Objekt, die PDF-Datei Seite für Seite zu handhaben. Jetzt können Sie ganz einfach Text aus dem gesamten PDF oder seitenweise extrahieren. Sobald das Dokument geparst ist, können Sie ganz einfach Text aus jeder Seite der PDF-Datei extrahieren.

PDF-Datei über PHP parsen

  // Include Composer autoloader if not already done.
  include 'vendor/autoload.php';
  // Parse Base64 encoded PDF string and build necessary objects.
  $parser = new \Smalot\PdfParser\Parser();
  $pdf  = $parser->parseContent(base64_decode($base64PDF));
  $text = $pdf->getText();
  echo $text;

Metadaten aus PDF-Dokument extrahieren

Metadata includes very important information about the PDF document and its contents such as Author, copyright information, creator, Creation Date and more. PDFParser gives developers the power to extract metadata from a PDF document. Once the document is parsed you can easily retrieve all details from the PDF file.

Extrahieren Sie Metadaten aus PDF über die PHP-API

  // Metadata Extraction from PDF 
  $metaData = $pdf->getDetails();
  Array
  (
   [Producer] => Adobe Acrobat
   [CreatedOn] => 2022-01-28T16:36:11+00:00
   [Pages] => 35
  )

Text aus einer bestimmten PDF-Seite extrahieren

PDFParser ermöglicht es Entwicklern, mit wenig Code mühelos Text aus bestimmten Seiten zu extrahieren. Die API gibt Entwicklern die Möglichkeit, jede Seite des PDF-Dokuments separat zu behandeln. Entwickler können das Array von Seiten durchlaufen und Text von der Seite ihrer Wahl abrufen. Die Reihenfolge des Arrays ist die gleiche wie die des PDF-Dokuments.

Extrahieren Sie Text aus PDF über PHP

  // Extract Text from PDF via PHP
  $text = $pdf->getText();
  // or extract the text of a specific page (in this case the first page)
  $text = $pdf->getPages()[0]->getText();