Bezmaksas PHP API, lai izvilktu tekstu un metadatus no PDF un attēliem

Atvērtā koda PHP optiskās rakstzīmju atpazīšanas bibliotēka ļauj izvilkt tekstu, metadatus un HTML no PDF, DOCX, attēliem (JPEG, PNG) un citiem dokumentiem vairākās valodās PHP lietojumprogrammās.

Programmatūras izstrādes jomā darbs ar tekstu no dažādiem failu tipiem var būt sarežģīts, taču tas ir bieži sastopams uzdevums. Neatkarīgi no tā, vai veidojat sistēmu dokumentu pārvaldībai, rīku satura analīzei vai meklētājprogrammu, spēja izvilkt tekstu no PDF, Word dokumentiem, izklājlapām un citiem failu formātiem ir būtiska. Šeit PHP‑Apache‑Tika bibliotēka kļūst par vērtīgu rīku. Apache Tika ir elastīga rīkkopa, kas paredzēta satura analīzes uzdevumu pārvaldībai. Ar Tika var izvilkt metadatus un tekstu no dažādiem failu tipiem, piemēram, PDF, Microsoft Office failiem un attēliem. Tika sākotnēji tika izstrādāta Java valodā. Bieži tā tiek izvietota kā atsevišķs serveris, kas pieejams caur HTTP. Šī pieeja ļauj dažādām programmēšanas valodām, piemēram, PHP, izmantot Tika spēcīgās iespējas, neveidojot sarežģītus parsēšanas procesus no nulles.

Bibliotēka atbalsta daudzas funkcijas, piemēram, teksta un HTML izguvi, metadatu izguvi, uzlabotu kļūdu apstrādi, OCR atpazīšanu, standartizētus dokumentu metadatus, lokālo un attālināto resursu atbalstu un daudz ko citu. PHP‑Apache‑Tika bibliotēka savieno PHP lietojumprogrammas ar Apache Tika serveri. Tā vietā, lai izveidotu savus parsētājus vai konvertētājus, varat izmantot šo bibliotēku, lai nosūtītu dokumentus uz Tika serveri un saņemtu tīru, izvilktu tekstu vai metadatus. Tas ne tikai vienkāršo izstrādes procesu, bet arī nodrošina, ka jūsu lietojumprogramma gūst labumu no Tika nepārtrauktajiem uzlabojumiem un plašā formātu atbalsta. Neatkarīgi no tā, vai izstrādājat sarežģītu dokumentu pārvaldības sistēmu vai vieglu satura analīzes rīku, PHP‑Apache‑Tika bibliotēka piedāvā uzticamu un elastīgu risinājumu.

Ātrā pārskats

Pārskats par PHP‑Apache‑Tika funkcijām.

Funkciju pārskats

Veikt OCR
Pievienot OCR iespējas
Atpazīt tekstu daudzās valodās
Pārveidot teksta attēlus
Atpazīts fonta teksts
Meklēt PDF
Citas valodas
Izveidot OCR lietotnes
Saglabāt pārlūkā
Izvilkt tekstu
Vairāku pavedienu atbalsts

PHP-Apache-Tika

PHP‑Apache‑Tika atbalsta populārus saspiešanas failu formātus, kas uzskaitīti zemāk.

Lasītājs

PNG, JPEG, BMP, TIFF, TGA, DICOM

Rakstītājs

PNG, JPEG, BMP, TIFF

PHP-Apache-Tika

Platformas neatkarība

PHP‑Apache‑Tika nepieciešams tikai PHP izpildlaiks.

PHP 5.1 un jaunāks.

PHP-Apache-Tika

Kā sākt darbu ar PHP‑Apache‑Tika

Ieteicamais veids, kā instalēt PHP‑Apache‑Tika, ir izmantot Composer. Lūdzu, izmantojiet šādu komandu, lai veiktu instalāciju.

Instalēt PHP‑Apache‑Tika caur Composer

composer require vaites/php-apache-tika

Instalēt PHP‑Apache‑Tika caur Github

git clone https://github.com/fizzday/OcrPHP.git

Jūs varat lejupielādēt kompilēto koplietojuma bibliotēku no Github krātuves.

Teksta un HTML izguve ar PHP

Viena no galvenajām PHP‑Apache‑Tika bibliotēkas funkcijām ir spēja izvilkt tekstu no dažādiem dokumentu formātiem. Tas var būt īpaši noderīgi, īstenojot meklēšanas funkcionalitāti vai satura analīzes rīkus. Bibliotēka atbalsta vienkārša teksta izguvi no dokumentiem, kas atvieglo to indeksēšanu, meklēšanu vai analīzi. Zemāk ir koda fragments, kas parāda, kā TikaClient nosūta dokumentu uz Tika serveri un atgriež vienkārša teksta saturu, padarot to gatavu tālākai apstrādei vai indeksēšanai.

Kā izvilkt tekstu no dokumenta PHP lietojumprogrammās?

require_once 'vendor/autoload.php';

use Vaites\ApacheTika\TikaClient;

// Initialize the Tika client with the Tika server URL
$client = new TikaClient('http://localhost:9998');

// Define the path to the document (e.g., PDF, DOCX, etc.)
$filePath = '/path/to/your/document.pdf';

try {
    // Extract text content from the document
    $extractedText = $client->extract($filePath);
    echo "Extracted Text:\n" . $extractedText;
} catch (\Exception $e) {
    echo "Error extracting text: " . $e->getMessage();
}

Metadatu izguve ar PHP bibliotēku

Pāri vienkāršajam tekstam dokumenti bieži satur vērtīgus metadatus, piemēram, autoru informāciju, izveides datumus un faila tipus. PHP‑Apache‑Tika bibliotēka var izvilkt šos metadatus, ļaujot izveidot bagātākas lietojumprogrammas. Šis piemērs parāda, kā iegūt metadatus no dokumenta. Rezultējošā masīva var ietvert dažādas detaļas atkarībā no faila tipa un tā satura.

Kā izvilkt metadatus, izmantojot PHP bibliotēku?

require_once 'vendor/autoload.php';

use Vaites\ApacheTika\TikaClient;

// Initialize the Tika client
$client = new TikaClient('http://localhost:9998');

// Specify the document file path
$filePath = '/path/to/your/document.pdf';

try {
    // Extract metadata from the document
    $metadata = $client->getMetadata($filePath);
    echo "Extracted Metadata:\n";
    print_r($metadata);
} catch (\Exception $e) {
    echo "Error extracting metadata: " . $e->getMessage();
}

Vairāku failu formātu apstrāde

Apache Tika spēks slēpjas tās atbalstā daudzos failu formātos. Neatkarīgi no tā, vai strādājat ar PDF, DOC, attēliem vai pat mazāk izplatītiem failu tipiem, šī bibliotēka palīdz nodrošināt, ka varat izvilkt nepieciešamos datus, neuztraucoties par formāta specifiskām īpatnībām. Iedomājieties, ka izstrādājat dokumentu pārvaldības sistēmu, kur lietotāji var augšupielādēt dažādus failu tipus. Jūs varat izmantot bibliotēku, lai noteiktu gan saturu, gan metadatus katram failam: