Free PHP API to Extract Text & Metadata from PDF and Images

Open Source PHP Optical Character Recognition Library allows to Extract Text, Metadata and HTML from PDF, DOCX, Images (JPEG, PNG) & Other Documents in Multiple Languages inside PHP Apps.

In de software‑ontwikkelingswereld kan het omgaan met tekst uit verschillende bestandstypen lastig zijn, maar het is een veelvoorkomende taak. Of je nu een systeem bouwt om documenten te beheren, een tool om inhoud te analyseren, of een zoekmachine, het kunnen extraheren van tekst uit PDF’s, Word‑documenten, spreadsheets en andere bestandsformaten is cruciaal. Hier komt de PHP‑Apache‑Tika‑bibliotheek van pas. Apache Tika is een flexibel toolkit ontworpen voor het uitvoeren van content‑analyse‑taken. Je kunt Tika gebruiken om metadata en tekst uit diverse bestandstypen zoals PDF’s, Microsoft‑Office‑bestanden en afbeeldingen te halen. Tika is oorspronkelijk in Java geschreven. Het wordt vaak als een eigen server opgezet, waardoor het via HTTP toegankelijk is. Deze methode laat verschillende programmeertalen, zoals PHP, toe om gebruik te maken van Tika’s krachtige mogelijkheden zonder zelf ingewikkelde parsingsprocessen vanaf nul te moeten bouwen.

De bibliotheek ondersteunt tal van functies zoals tekst‑ en HTML‑extractie, metadata‑extractie, betere foutafhandeling, OCR‑herkenning, gestandaardiseerde metadata voor documenten, ondersteuning voor lokale en externe bronnen, en nog veel meer. De PHP‑Apache‑Tika‑bibliotheek verbindt PHP‑applicaties met de Apache Tika‑server. In plaats van eigen parsers of converters te bouwen, kun je met deze bibliotheek documenten naar de Tika‑server sturen en schone, geëxtraheerde tekst of metadata terugkrijgen. Dit vereenvoudigt niet alleen het ontwikkelingsproces, maar zorgt er ook voor dat je applicatie profiteert van Tika’s voortdurende verbeteringen en brede formaatondersteuning. Of je nu een complex document‑beheersysteem of een lichtgewicht content‑analyse‑tool ontwikkelt, de PHP‑Apache‑Tika‑bibliotheek biedt een betrouwbare en flexibele oplossing.

In één oogopslag

Een overzicht van PHP‑Apache‑Tika‑functies.

Features Overview

OCR uitvoeren
OCR‑mogelijkheden toevoegen
Tekst herkennen in veel talen
Afbeeldingen van tekst converteren
Herkende lettertype tekst
PDF doorzoeken
Andere talen
OCR‑apps maken
Opslaan naar browser
Tekst extraheren
Ondersteuning voor multithreading

PHP-Apache-Tika

PHP‑Apache‑Tika ondersteunt de populaire compressie‑bestandstypen die hieronder staan.

Lezer

PNG, JPEG, BMP, TIFF, TGA, DICOM

Schrijver

PNG, JPEG, BMP, TIFF

PHP-Apache-Tika

Platformonafhankelijkheid

PHP‑Apache‑Tika vereist alleen een PHP‑runtime.

PHP 5.1 en hoger.

PHP-Apache-Tika

Aan de slag met PHP‑Apache‑Tika

De aanbevolen manier om PHP‑Apache‑Tika te installeren is via Composer. Gebruik de volgende opdracht voor een soepele installatie.

Installeer PHP‑Apache‑Tika via Composer

composer require vaites/php-apache-tika

Installeer PHP‑Apache‑Tika via Github

git clone https://github.com/fizzday/OcrPHP.git

U kunt de gecompileerde gedeelde bibliotheek downloaden van de Github repository.

Tekst‑ en HTML‑extractie via PHP

Een van de belangrijkste functies van de PHP‑Apache‑Tika‑bibliotheek is het vermogen om tekst uit verschillende documentformaten te extraheren. Dit is bijzonder nuttig bij het implementeren van zoekfunctionaliteit of content‑analyse‑tools. De bibliotheek ondersteunt het extraheren van platte tekst uit documenten, waardoor het eenvoudiger wordt om inhoud te indexeren, doorzoeken of analyseren. Hieronder staat een code‑fragment dat laat zien hoe TikaClient het document naar de Tika‑server stuurt en de platte tekstinhoud ophaalt, klaar voor verdere verwerking of indexering.

Hoe tekst uit een document binnen PHP‑apps te extraheren?

require_once 'vendor/autoload.php';

use Vaites\ApacheTika\TikaClient;

// Initialiseert de Tika‑client met de Tika‑server‑URL
$client = new TikaClient('http://localhost:9998');

// Definieer het pad naar het document (bijv. PDF, DOCX, etc.)
$filePath = '/path/to/your/document.pdf';

try {
    // Extraheer tekstinhoud uit het document
    $extractedText = $client->extract($filePath);
    echo "Extracted Text:\n" . $extractedText;
} catch (\Exception $e) {
    echo "Error extracting text: " . $e->getMessage();
}

Metadata‑extractie via PHP‑bibliotheek

Naast tekst bevatten documenten vaak waardevolle metadata zoals auteurinformatie, aanmaakdatums en bestandstypen. De PHP‑Apache‑Tika‑bibliotheek kan deze metadata extraheren, zodat je rijkere applicaties kunt bouwen. Dit voorbeeld laat zien hoe metadata uit een document kan worden opgehaald. De resulterende array kan verschillende details bevatten, afhankelijk van het bestandstype en de inhoud.

Hoe metadata extraheren met PHP‑bibliotheek?

require_once 'vendor/autoload.php';

use Vaites\ApacheTika\TikaClient;

// Initialiseert de Tika‑client
$client = new TikaClient('http://localhost:9998');

// Specificeer het pad naar het document
$filePath = '/path/to/your/document.pdf';

try {
    // Extraheer metadata uit het document
    $metadata = $client->getMetadata($filePath);
    echo "Extracted Metadata:\n";
    print_r($metadata);
} catch (\Exception $e) {
    echo "Error extracting metadata: " . $e->getMessage();
}

Meerdere bestandsformaten verwerken

De kracht van Apache Tika ligt in de ondersteuning voor meerdere bestandsformaten. Of je nu werkt met PDF’s, DOC‑bestanden, afbeeldingen of zelfs minder gangbare bestandstypen, deze bibliotheek zorgt ervoor dat je de benodigde gegevens kunt extraheren zonder je zorgen te maken over formaat‑specifieke eigenaardigheden. Stel je voor dat je een document‑beheersysteem ontwikkelt waarin gebruikers verschillende bestandstypen kunnen uploaden. Je zou de bibliotheek kunnen gebruiken om zowel de inhoud als de metadata van elk bestand te bepalen: