Free PHP API to Extract Text & Metadata from PDF and Images

Open Source PHP Optical Character Recognition Library allows to Extract Text, Metadata and HTML from PDF, DOCX, Images (JPEG, PNG) & Other Documents in Multiple Languages inside PHP Apps.

I programvareutvikling kan håndtering av tekst fra ulike filtyper være utfordrende, men er en hyppig oppgave. Enten du lager et system for dokumenthåndtering, et verktøy for innholdsanalyse eller en søkemotor, er evnen til å trekke ut tekst fra PDF‑er, Word‑dokumenter, regneark og andre filformater avgjørende. Det er her PHP‑Apache‑Tika‑biblioteket blir verdifullt. Apache Tika er et fleksibelt verktøysett laget for å håndtere innholdsanalyseoppgaver. Du kan bruke Tika til å hente ut metadata og tekst fra ulike filtyper som PDF‑er, Microsoft Office‑filer og bilder. Tika ble opprinnelig skrevet i Java. Det settes ofte opp som en egen server, tilgjengelig via HTTP. Denne metoden lar ulike programmeringsspråk, som PHP, bruke Tikas kraftige funksjoner uten å måtte bygge komplekse parser‑prosesser fra bunnen av.

Biblioteket støtter mange funksjoner som tekst‑ og HTML‑uttrekk, metadata‑uttrekk, forbedret feilhåndtering, OCR‑gjenkjenning, standardiserte metadata for dokumenter, støtte for lokale og eksterne ressurser, og mye mer. PHP‑Apache‑Tika‑biblioteket kobler PHP‑applikasjoner til Apache Tika‑serveren. I stedet for å bygge egne parser‑ eller konverteringsverktøy, kan du bruke dette biblioteket til å sende dokumenter til Tika‑serveren og motta ren, ekstrahert tekst eller metadata tilbake. Dette forenkler utviklingsprosessen og sikrer at applikasjonen din drar nytte av Tikas kontinuerlige forbedringer og brede formatstøtte. Enten du utvikler et komplekst dokumenthåndteringssystem eller et lettvektig innholdsanalyseverktøy, gir PHP‑Apache‑Tika‑biblioteket en pålitelig og fleksibel løsning.

På et øyeblikk

En oversikt over PHP‑Apache‑Tika‑funksjoner.

Funksjonsoversikt

Utfør OCR
Legg til OCR-funksjonalitet
Gjenkjenne tekst på mange språk
Konverter bilder av tekst
Gjenkjent skrifttype-tekst
Søk i PDF
Andre språk
Lag OCR-apper
Lagre til nettleser
Uttrekk tekst
Støtte for flertråding

PHP-Apache-Tika

PHP‑Apache‑Tika støtter populære komprimeringsfilformater listet nedenfor.

Leser

PNG, JPEG, BMP, TIFF, TGA, DICOM

Skriver

PNG, JPEG, BMP, TIFF

PHP-Apache-Tika

Plattformuavhengighet

PHP‑Apache‑Tika krever kun PHP Runtime.

PHP 5.1 og nyere.

PHP-Apache-Tika

Kom i gang med PHP‑Apache‑Tika

Den anbefalte måten å installere PHP‑Apache‑Tika på er ved å bruke Composer. Vennligst bruk følgende kommando for en enkel installasjon.

Install PHP‑Apache‑Tika via Composer

composer require vaites/php-apache-tika

Install PHP‑Apache‑Tika via Github

git clone https://github.com/fizzday/OcrPHP.git

You can download the compiled shared library from Github repository.

Tekst- og HTML-uttrekk via PHP

En av de viktigste funksjonene i PHP‑Apache‑Tika‑biblioteket er evnen til å trekke ut tekst fra ulike dokumentformater. Dette er spesielt nyttig når du implementerer søkefunksjonalitet eller innholdsanalyseverktøy. Biblioteket støtter uttrekk av ren tekst fra dokumenter, noe som gjør det enklere å indeksere, søke i eller analysere innholdet. Her er et kodeeksempel som viser hvordan TikaClient sender dokumentet til Tika‑serveren og henter den rene tekstinnholdet, klar for videre behandling eller indeksering.

How to Extract Text from a Document inside PHP Apps?

require_once 'vendor/autoload.php';

use Vaites\ApacheTika\TikaClient;

// Initialize the Tika client with the Tika server URL
$client = new TikaClient('http://localhost:9998');

// Define the path to the document (e.g., PDF, DOCX, etc.)
$filePath = '/path/to/your/document.pdf';

try {
    // Extract text content from the document
    $extractedText = $client->extract($FilePath);
    echo "Extracted Text:\n" . $extractedText;
} catch (\Exception $e) {
    echo "Error extracting text: " . $e->getMessage();
}

Metadata-uttrekk via PHP-bibliotek

Utover tekst inneholder dokumenter ofte verdifull metadata som forfatterinformasjon, opprettelsesdatoer og filtyper. PHP‑Apache‑Tika‑biblioteket kan hente ut denne metadataen, slik at du kan bygge rikere applikasjoner. Dette eksempelet viser hvordan du henter metadata fra et dokument. Det resulterende arrayet kan inneholde ulike detaljer avhengig av filtype og innhold.

How to Extract Metadata using PHP Library?

require_once 'vendor/autoload.php';

use Vaites\ApacheTika\TikaClient;

// Initialize the Tika client
$client = new TikaClient('http://localhost:9998');

// Specify the document file path
$filePath = '/path/to/your/document.pdf';

try {
    // Extract metadata from the document
    $metadata = $client->getMetadata($filePath);
    echo "Extracted Metadata:\n";
    print_r($metadata);
} catch (\Exception $e) {
    echo "Error extracting metadata: " . $e->getMessage();
}

Håndtering av flere filformater

Kraften i Apache Tika ligger i støtten for flere filformater. Enten du jobber med PDF‑er, DOC‑filer, bilder eller mindre vanlige filtyper, hjelper dette biblioteket deg med å hente ut nødvendig data uten å måtte bekymre deg for formatspesifikke særtrekk. Tenk deg at du utvikler et dokumenthåndteringssystem hvor brukere kan laste opp ulike filtyper. Du kan bruke biblioteket til å bestemme både innhold og metadata for hver fil: