Free PHP API to Extract Text & Metadata from PDF and Images
Open Source PHP Optical Character Recognition Library allows to Extract Text, Metadata and HTML from PDF, DOCX, Images (JPEG, PNG) & Other Documents in Multiple Languages inside PHP Apps.
I programvareutvikling kan håndtering av tekst fra ulike filtyper være utfordrende, men er en hyppig oppgave. Enten du lager et system for dokumenthåndtering, et verktøy for innholdsanalyse eller en søkemotor, er evnen til å trekke ut tekst fra PDF‑er, Word‑dokumenter, regneark og andre filformater avgjørende. Det er her PHP‑Apache‑Tika‑biblioteket blir verdifullt. Apache Tika er et fleksibelt verktøysett laget for å håndtere innholdsanalyseoppgaver. Du kan bruke Tika til å hente ut metadata og tekst fra ulike filtyper som PDF‑er, Microsoft Office‑filer og bilder. Tika ble opprinnelig skrevet i Java. Det settes ofte opp som en egen server, tilgjengelig via HTTP. Denne metoden lar ulike programmeringsspråk, som PHP, bruke Tikas kraftige funksjoner uten å måtte bygge komplekse parser‑prosesser fra bunnen av.
Biblioteket støtter mange funksjoner som tekst‑ og HTML‑uttrekk, metadata‑uttrekk, forbedret feilhåndtering, OCR‑gjenkjenning, standardiserte metadata for dokumenter, støtte for lokale og eksterne ressurser, og mye mer. PHP‑Apache‑Tika‑biblioteket kobler PHP‑applikasjoner til Apache Tika‑serveren. I stedet for å bygge egne parser‑ eller konverteringsverktøy, kan du bruke dette biblioteket til å sende dokumenter til Tika‑serveren og motta ren, ekstrahert tekst eller metadata tilbake. Dette forenkler utviklingsprosessen og sikrer at applikasjonen din drar nytte av Tikas kontinuerlige forbedringer og brede formatstøtte. Enten du utvikler et komplekst dokumenthåndteringssystem eller et lettvektig innholdsanalyseverktøy, gir PHP‑Apache‑Tika‑biblioteket en pålitelig og fleksibel løsning.
Kom i gang med PHP‑Apache‑Tika
Den anbefalte måten å installere PHP‑Apache‑Tika på er ved å bruke Composer. Vennligst bruk følgende kommando for en enkel installasjon.
Install PHP‑Apache‑Tika via Composer
composer require vaites/php-apache-tikaInstall PHP‑Apache‑Tika via Github
git clone https://github.com/fizzday/OcrPHP.git You can download the compiled shared library from Github repository.
Tekst- og HTML-uttrekk via PHP
En av de viktigste funksjonene i PHP‑Apache‑Tika‑biblioteket er evnen til å trekke ut tekst fra ulike dokumentformater. Dette er spesielt nyttig når du implementerer søkefunksjonalitet eller innholdsanalyseverktøy. Biblioteket støtter uttrekk av ren tekst fra dokumenter, noe som gjør det enklere å indeksere, søke i eller analysere innholdet. Her er et kodeeksempel som viser hvordan TikaClient sender dokumentet til Tika‑serveren og henter den rene tekstinnholdet, klar for videre behandling eller indeksering.
How to Extract Text from a Document inside PHP Apps?
require_once 'vendor/autoload.php';
use Vaites\ApacheTika\TikaClient;
// Initialize the Tika client with the Tika server URL
$client = new TikaClient('http://localhost:9998');
// Define the path to the document (e.g., PDF, DOCX, etc.)
$filePath = '/path/to/your/document.pdf';
try {
// Extract text content from the document
$extractedText = $client->extract($FilePath);
echo "Extracted Text:\n" . $extractedText;
} catch (\Exception $e) {
echo "Error extracting text: " . $e->getMessage();
}
Metadata-uttrekk via PHP-bibliotek
Utover tekst inneholder dokumenter ofte verdifull metadata som forfatterinformasjon, opprettelsesdatoer og filtyper. PHP‑Apache‑Tika‑biblioteket kan hente ut denne metadataen, slik at du kan bygge rikere applikasjoner. Dette eksempelet viser hvordan du henter metadata fra et dokument. Det resulterende arrayet kan inneholde ulike detaljer avhengig av filtype og innhold.
How to Extract Metadata using PHP Library?
require_once 'vendor/autoload.php';
use Vaites\ApacheTika\TikaClient;
// Initialize the Tika client
$client = new TikaClient('http://localhost:9998');
// Specify the document file path
$filePath = '/path/to/your/document.pdf';
try {
// Extract metadata from the document
$metadata = $client->getMetadata($filePath);
echo "Extracted Metadata:\n";
print_r($metadata);
} catch (\Exception $e) {
echo "Error extracting metadata: " . $e->getMessage();
}
Håndtering av flere filformater
Kraften i Apache Tika ligger i støtten for flere filformater. Enten du jobber med PDF‑er, DOC‑filer, bilder eller mindre vanlige filtyper, hjelper dette biblioteket deg med å hente ut nødvendig data uten å måtte bekymre deg for formatspesifikke særtrekk. Tenk deg at du utvikler et dokumenthåndteringssystem hvor brukere kan laste opp ulike filtyper. Du kan bruke biblioteket til å bestemme både innhold og metadata for hver fil: