Kostenlose PHP-API zum Extrahieren von Text und Metadaten aus PDF und Bildern
Open-Source-PHP-OCR-Bibliothek ermöglicht das Extrahieren von Text, Metadaten und HTML aus PDF, DOCX, Bildern (JPEG, PNG) und anderen Dokumenten in mehreren Sprachen innerhalb von PHP-Anwendungen.
Im Bereich der Softwareentwicklung kann der Umgang mit Text aus verschiedenen Dateitypen knifflig sein, ist jedoch eine häufige Aufgabe. Egal, ob Sie ein System zur Dokumentenverwaltung, ein Tool zur Inhaltsanalyse oder eine Suchmaschine erstellen – die Möglichkeit, Text aus PDFs, Word-Dokumenten, Tabellenkalkulationen und anderen Dateiformaten zu extrahieren, ist entscheidend. Hier kommt die PHP-Apache-Tika‑Bibliothek ins Spiel. Apache Tika ist ein flexibles Toolkit, das für die Durchführung von Inhaltsanalyseaufgaben entwickelt wurde. Sie können Tika verwenden, um Metadaten und Text aus verschiedenen Dateitypen wie PDFs, Microsoft‑Office‑Dateien und Bildern herauszuziehen. Tika wurde ursprünglich in Java geschrieben. Es wird häufig als eigenständiger Server eingerichtet, der über HTTP erreichbar ist. Dieses Verfahren ermöglicht es verschiedenen Programmiersprachen, etwa PHP, auf die leistungsstarken Funktionen von Tika zuzugreifen, ohne dass komplexe Parsing‑Prozesse von Grund auf neu erstellt werden müssen.
Die Bibliothek unterstützt zahlreiche Funktionen wie Text‑ und HTML‑Extraktion, Metadaten‑Extraktion, verbesserte Fehlerbehandlung, OCR‑Erkennung, standardisierte Metadaten für Dokumente, Unterstützung lokaler und entfernter Ressourcen und vieles mehr. Die PHP‑Apache‑Tika‑Bibliothek verbindet PHP‑Anwendungen mit dem Apache‑Tika‑Server. Anstatt eigene Parser oder Konverter zu bauen, können Sie diese Bibliothek nutzen, um Dokumente an den Tika‑Server zu senden und im Gegenzug bereinigten, extrahierten Text oder Metadaten zu erhalten. Das vereinfacht nicht nur den Entwicklungsprozess, sondern stellt auch sicher, dass Ihre Anwendung von den kontinuierlichen Verbesserungen und der breiten Formatunterstützung von Tika profitiert. Egal, ob Sie ein komplexes Dokumenten‑Management‑System oder ein leichtgewichtiges Inhaltsanalyse‑Tool entwickeln, die PHP‑Apache‑Tika‑Bibliothek bietet eine zuverlässige und flexible Lösung.
Erste Schritte mit PHP-Apache-Tika
Die empfohlene Methode, PHP-Apache-Tika zu installieren, ist die Verwendung von Composer. Bitte verwenden Sie den folgenden Befehl für eine reibungslose Installation.
Install PHP-Apache-Tika via Composer
composer require vaites/php-apache-tikaInstall PHP-Apache-Tika via Github
git clone https://github.com/fizzday/OcrPHP.git You can download the compiled shared library from Github repository.
Text- und HTML-Extraktion mit PHP
Eines der Hauptmerkmale der PHP‑Apache‑Tika‑Bibliothek ist ihre Fähigkeit, Text aus verschiedenen Dokumentformaten zu extrahieren. Das ist besonders nützlich, wenn Suchfunktionen oder Werkzeuge zur Inhaltsanalyse implementiert werden sollen. Die Bibliothek unterstützt das Extrahieren von Klartext aus Dokumenten, was das Indexieren, Durchsuchen oder Analysieren von Inhalten erleichtert. Hier ein Code‑Snippet, das zeigt, wie TikaClient das Dokument an den Tika‑Server sendet und den Klartext zurückliefert, sodass er weiterverarbeitet oder indexiert werden kann.
How to Extract Text from a Document inside PHP Apps?
require_once 'vendor/autoload.php';
use Vaites\ApacheTika\TikaClient;
// Initialize the Tika client with the Tika server URL
$client = new TikaClient('http://localhost:9998');
// Define the path to the document (e.g., PDF, DOCX, etc.)
$filePath = '/path/to/your/document.pdf';
try {
// Extract text content from the document
$extractedText = $client->extract($filePath);
echo "Extracted Text:\n" . $extractedText;
} catch (\Exception $e) {
echo "Error extracting text: " . $e->getMessage();
}
Metadatenextraktion mit PHP-Bibliothek
Über den reinen Text hinaus enthalten Dokumente häufig wertvolle Metadaten wie Autorinformationen, Erstellungsdaten und Dateitypen. Die PHP‑Apache‑Tika‑Bibliothek kann diese Metadaten extrahieren, sodass Sie reichhaltigere Anwendungen bauen können. Dieses Beispiel zeigt, wie Metadaten aus einem Dokument abgerufen werden. Das resultierende Array kann je nach Dateityp und Inhalt verschiedene Details enthalten.
How to Extract Metadata using PHP Library?
require_once 'vendor/autoload.php';
use Vaites\ApacheTika\TikaClient;
// Initialize the Tika client
$client = new TikaClient('http://localhost:9998');
// Specify the document file path
$filePath = '/path/to/your/document.pdf';
try {
// Extract metadata from the document
$metadata = $client->getMetadata($filePath);
echo "Extracted Metadata:\n";
print_r($metadata);
} catch (\Exception $e) {
echo "Error extracting metadata: " . $e->getMessage();
}
Umgang mit mehreren Dateiformaten
Die Stärke von Apache Tika liegt in seiner Unterstützung mehrerer Dateiformate. Egal, ob Sie PDFs, DOCs, Bilder oder sogar weniger verbreitete Dateitypen verarbeiten, diese Bibliothek sorgt dafür, dass Sie die benötigten Daten extrahieren können, ohne sich um formatbezogene Eigenheiten kümmern zu müssen. Stellen Sie sich vor, Sie entwickeln ein Dokumenten‑Management‑System, bei dem Nutzer verschiedene Dateitypen hochladen können. Sie könnten die Bibliothek nutzen, um sowohl den Inhalt als auch die Metadaten jeder Datei zu bestimmen: