Free PHP API to Extract Text & Metadata from PDF and Images

Open Source PHP Optical Character Recognition Library allows to Extract Text, Metadata and HTML from PDF, DOCX, Images (JPEG, PNG) & Other Documents in Multiple Languages inside PHP Apps.

I softwareudvikling kan håndtering af tekst fra forskellige filtyper være udfordrende, men det er en hyppig opgave. Uanset om du opretter et system til at administrere dokumenter, et værktøj til at analysere indhold eller en søgemaskine, er evnen til at udtrække tekst fra PDF‑filer, Word‑dokumenter, regneark og andre filformater afgørende. Det er her, PHP‑Apache‑Tika‑biblioteket bliver værdifuldt. Apache Tika er et fleksibelt værktøjssæt designet til at håndtere indholdsanalyseopgaver. Du kan bruge Tika til at hente metadata og tekst fra forskellige filtyper som PDF‑filer, Microsoft Office‑filer og billeder. Tika blev oprindeligt skrevet i Java. Det kører typisk som en selvstændig server, som er tilgængelig via HTTP. Denne metode gør det muligt for forskellige programmeringssprog, såsom PHP, at udnytte Tikas kraftfulde funktioner uden at skulle bygge komplekse parser‑processer fra bunden.

Biblioteket understøtter talrige funktioner såsom tekst‑ og HTML‑udtræk, metadata‑udtræk, forbedret fejlhåndtering, OCR‑genkendelse, standardiseret metadata for dokumenter, understøttelse af lokale og fjernressourcer og meget mere. PHP‑Apache‑Tika‑biblioteket forbinder PHP‑applikationer med Apache Tika‑serveren. I stedet for at bygge dine egne parser‑ eller konverteringsværktøjer, kan du bruge dette bibliotek til at sende dokumenter til Tika‑serveren og modtage ren, udtrukket tekst eller metadata som svar. Det forenkler udviklingsprocessen og sikrer, at din applikation drager fordel af Tikas løbende forbedringer og brede formatunderstøttelse. Uanset om du udvikler et komplekst dokumenthåndteringssystem eller et letvægtsindholdsanalyseværktøj, leverer PHP‑Apache‑Tika‑biblioteket en pålidelig og fleksibel løsning.

På et overblik

En oversigt over PHP‑Apache‑Tika‑funktioner.

Features Overview

Udfør OCR
Tilføj OCR-funktioner
Genkend tekst på mange sprog
Konverter billeder af tekst
Genkend skrifttype-tekst
Søg i PDF
Andre sprog
Opret OCR-apps
Gem til browser
Udtræk tekst
Understøttelse af multitrådning

PHP-Apache-Tika

PHP‑Apache‑Tika understøtter populære komprimeringsfilformater angivet nedenfor.

Læser

PNG, JPEG, BMP, TIFF, TGA, DICOM

Skriver

PNG, JPEG, BMP, TIFF

PHP-Apache-Tika

Platformuafhængighed

PHP‑Apache‑Tika kræver kun PHP-runtime.

PHP 5.1 og nyere.

PHP-Apache-Tika

Kom i gang med PHP‑Apache‑Tika

Den anbefalede måde at installere PHP‑Apache‑Tika på er ved at bruge Composer. Brug venligst følgende kommando for en problemfri installation.

Install PHP‑Apache‑Tika via Composer

composer require vaites/php-apache-tika

Install PHP‑Apache‑Tika via Github

git clone https://github.com/fizzday/OcrPHP.git

You can download the compiled shared library from Github repository.

Tekst- og HTML-udtræk via PHP

En af de primære funktioner i PHP‑Apache‑Tika‑biblioteket er dets evne til at udtrække tekst fra forskellige dokumentformater. Dette er især nyttigt, når du implementerer søgefunktioner eller indholdsanalyseværktøjer. Biblioteket understøtter udtræk af ren tekst fra dokumenter, hvilket gør det lettere at indeksere, søge i eller analysere indholdet. Her er et kodeeksempel, der viser, hvordan TikaClient sender dokumentet til Tika‑serveren og henter den rene tekst, så den er klar til videre behandling eller indeksering.

Hvordan udtrækker man tekst fra et dokument i PHP-applikationer?

require_once 'vendor/autoload.php';

use Vaites\ApacheTika\TikaClient;

// Initialize the Tika client with the Tika server URL
$client = new TikaClient('http://localhost:9998');

// Define the path to the document (e.g., PDF, DOCX, etc.)
$filePath = '/path/to/your/document.pdf';

try {
    // Extract text content from the document
    $extractedText = $client->extract($filePath);
    echo "Extracted Text:\n" . $extractedText;
} catch (\Exception $e) {
    echo "Error extracting text: " . $e->getMessage();
}

Metadata-udtræk via PHP-bibliotek

Udover tekst indeholder dokumenter ofte værdifuld metadata såsom forfatterinformation, oprettelsesdatoer og filtyper. PHP‑Apache‑Tika‑biblioteket kan udtrække denne metadata, så du kan bygge rigere applikationer. Dette eksempel demonstrerer, hvordan du henter metadata fra et dokument. Det resulterende array kan indeholde forskellige detaljer afhængigt af filtypen og indholdet.

Hvordan udtrækker man metadata ved brug af PHP-biblioteket?

require_once 'vendor/autoload.php';

use Vaites\ApacheTika\TikaClient;

// Initialize the Tika client
$client = new TikaClient('http://localhost:9998');

// Specify the document file path
$filePath = '/path/to/your/document.pdf';

try {
    // Extract metadata from the document
    $metadata = $client->getMetadata($filePath);
    echo "Extracted Metadata:\n";
    print_r($metadata);
} catch (\Exception $e) {
    echo "Error extracting metadata: " . $e->getMessage();
}

Håndtering af flere filformater

Kraften i Apache Tika ligger i dens understøttelse af mange filformater. Uanset om du arbejder med PDF‑filer, DOC‑filer, billeder eller endda mindre almindelige filtyper, hjælper dette bibliotek dig med at udtrække de nødvendige data uden at bekymre dig om format‑specifikke særheder. Forestil dig, at du udvikler et dokumenthåndteringssystem, hvor brugere kan uploade forskellige filtyper. Du kan bruge biblioteket til at bestemme både indholdet og metadataene for hver fil: