Free PHP API to Extract Text & Metadata from PDF and Images
Open Source PHP Optical Character Recognition Library allows to Extract Text, Metadata and HTML from PDF, DOCX, Images (JPEG, PNG) & Other Documents in Multiple Languages inside PHP Apps.
In de software‑ontwikkelingswereld kan het omgaan met tekst uit verschillende bestandstypen lastig zijn, maar het is een veelvoorkomende taak. Of je nu een systeem bouwt om documenten te beheren, een tool om inhoud te analyseren, of een zoekmachine, het kunnen extraheren van tekst uit PDF’s, Word‑documenten, spreadsheets en andere bestandsformaten is cruciaal. Hier komt de PHP‑Apache‑Tika‑bibliotheek van pas. Apache Tika is een flexibel toolkit ontworpen voor het uitvoeren van content‑analyse‑taken. Je kunt Tika gebruiken om metadata en tekst uit diverse bestandstypen zoals PDF’s, Microsoft‑Office‑bestanden en afbeeldingen te halen. Tika is oorspronkelijk in Java geschreven. Het wordt vaak als een eigen server opgezet, waardoor het via HTTP toegankelijk is. Deze methode laat verschillende programmeertalen, zoals PHP, toe om gebruik te maken van Tika’s krachtige mogelijkheden zonder zelf ingewikkelde parsingsprocessen vanaf nul te moeten bouwen.
De bibliotheek ondersteunt tal van functies zoals tekst‑ en HTML‑extractie, metadata‑extractie, betere foutafhandeling, OCR‑herkenning, gestandaardiseerde metadata voor documenten, ondersteuning voor lokale en externe bronnen, en nog veel meer. De PHP‑Apache‑Tika‑bibliotheek verbindt PHP‑applicaties met de Apache Tika‑server. In plaats van eigen parsers of converters te bouwen, kun je met deze bibliotheek documenten naar de Tika‑server sturen en schone, geëxtraheerde tekst of metadata terugkrijgen. Dit vereenvoudigt niet alleen het ontwikkelingsproces, maar zorgt er ook voor dat je applicatie profiteert van Tika’s voortdurende verbeteringen en brede formaatondersteuning. Of je nu een complex document‑beheersysteem of een lichtgewicht content‑analyse‑tool ontwikkelt, de PHP‑Apache‑Tika‑bibliotheek biedt een betrouwbare en flexibele oplossing.
Aan de slag met PHP‑Apache‑Tika
De aanbevolen manier om PHP‑Apache‑Tika te installeren is via Composer. Gebruik de volgende opdracht voor een soepele installatie.
Installeer PHP‑Apache‑Tika via Composer
composer require vaites/php-apache-tikaInstalleer PHP‑Apache‑Tika via Github
git clone https://github.com/fizzday/OcrPHP.git U kunt de gecompileerde gedeelde bibliotheek downloaden van de Github repository.
Tekst‑ en HTML‑extractie via PHP
Een van de belangrijkste functies van de PHP‑Apache‑Tika‑bibliotheek is het vermogen om tekst uit verschillende documentformaten te extraheren. Dit is bijzonder nuttig bij het implementeren van zoekfunctionaliteit of content‑analyse‑tools. De bibliotheek ondersteunt het extraheren van platte tekst uit documenten, waardoor het eenvoudiger wordt om inhoud te indexeren, doorzoeken of analyseren. Hieronder staat een code‑fragment dat laat zien hoe TikaClient het document naar de Tika‑server stuurt en de platte tekstinhoud ophaalt, klaar voor verdere verwerking of indexering.
Hoe tekst uit een document binnen PHP‑apps te extraheren?
require_once 'vendor/autoload.php';
use Vaites\ApacheTika\TikaClient;
// Initialiseert de Tika‑client met de Tika‑server‑URL
$client = new TikaClient('http://localhost:9998');
// Definieer het pad naar het document (bijv. PDF, DOCX, etc.)
$filePath = '/path/to/your/document.pdf';
try {
// Extraheer tekstinhoud uit het document
$extractedText = $client->extract($filePath);
echo "Extracted Text:\n" . $extractedText;
} catch (\Exception $e) {
echo "Error extracting text: " . $e->getMessage();
}
Metadata‑extractie via PHP‑bibliotheek
Naast tekst bevatten documenten vaak waardevolle metadata zoals auteurinformatie, aanmaakdatums en bestandstypen. De PHP‑Apache‑Tika‑bibliotheek kan deze metadata extraheren, zodat je rijkere applicaties kunt bouwen. Dit voorbeeld laat zien hoe metadata uit een document kan worden opgehaald. De resulterende array kan verschillende details bevatten, afhankelijk van het bestandstype en de inhoud.
Hoe metadata extraheren met PHP‑bibliotheek?
require_once 'vendor/autoload.php';
use Vaites\ApacheTika\TikaClient;
// Initialiseert de Tika‑client
$client = new TikaClient('http://localhost:9998');
// Specificeer het pad naar het document
$filePath = '/path/to/your/document.pdf';
try {
// Extraheer metadata uit het document
$metadata = $client->getMetadata($filePath);
echo "Extracted Metadata:\n";
print_r($metadata);
} catch (\Exception $e) {
echo "Error extracting metadata: " . $e->getMessage();
}
Meerdere bestandsformaten verwerken
De kracht van Apache Tika ligt in de ondersteuning voor meerdere bestandsformaten. Of je nu werkt met PDF’s, DOC‑bestanden, afbeeldingen of zelfs minder gangbare bestandstypen, deze bibliotheek zorgt ervoor dat je de benodigde gegevens kunt extraheren zonder je zorgen te maken over formaat‑specifieke eigenaardigheden. Stel je voor dat je een document‑beheersysteem ontwikkelt waarin gebruikers verschillende bestandstypen kunnen uploaden. Je zou de bibliotheek kunnen gebruiken om zowel de inhoud als de metadata van elk bestand te bepalen: