Nemokama PHP API, skirta išgauti tekstą ir metaduomenis iš PDF ir vaizdų

Atviro kodo PHP optinio teksto atpažinimo biblioteka leidžia išgauti tekstą, metaduomenis ir HTML iš PDF, DOCX, vaizdų (JPEG, PNG) ir kitų dokumentų keliomis kalbomis PHP programose.

Programinės įrangos kūrimo srityje darbas su tekstu iš įvairių failų tipų gali būti sudėtingas, tačiau tai dažna užduotis. Nesvarbu, ar kuriate sistemą dokumentų valdymui, įrankį turinio analizei, ar paieškos variklį, gebėjimas išgauti tekstą iš PDF, Word dokumentų, skaičiuoklių ir kitų failų formatų yra esminis. Čia įžvalgų suteikia PHP-Apache-Tika biblioteka. Apache Tika yra lankstus įrankių rinkinys, skirtas turinio analizės darbams valdyti. Galite naudoti Tika, kad išgautumėte metaduomenis ir tekstą iš įvairių failų tipų, tokių kaip PDF, Microsoft Office failai ir vaizdai. Tika iš pradžių buvo sukurta Java kalba. Dažniausiai ji veikia kaip atskiras serveris, prieinamas per HTTP. Šis metodas leidžia skirtingoms programavimo kalboms, pavyzdžiui PHP, pasinaudoti Tika galingomis galimybėmis, nesukuriant sudėtingų analizės procesų nuo nulio.

Biblioteka palaiko daugybę funkcijų, tokių kaip teksto ir HTML išgavimas, metaduomenų išgavimas, patobulintas klaidų tvarkymas, OCR atpažinimas, standartizuoti dokumentų metaduomenys, vietinių ir nuotolinių išteklių palaikymas ir dar daug daugiau. PHP-Apache-Tika biblioteka sujungia PHP programas su Apache Tika serveriu. Vietoj to, kad kuriate savo analizatorių ar konvertuotojus, galite pasikliauti šia biblioteka, kad išsiųstumėte dokumentus į Tika serverį ir gautumėte švarų išgautą tekstą arba metaduomenis. Tai ne tik supaprastina kūrimo procesą, bet ir užtikrina, kad jūsų programa gautų naudos iš Tika nuolatinių patobulinimų ir plačios formatų palaikymo. Nesvarbu, ar kuriate sudėtingą dokumentų valdymo sistemą, ar lengvą turinio analizės įrankį, PHP-Apache-Tika biblioteka suteikia patikimą ir lankstų sprendimą.

Apžvalga

PHP-Apache-Tika funkcijų apžvalga.

Funkcijų apžvalga

Vykdyti OCR
Pridėti OCR galimybes
Atpažinti tekstą daugeliu kalbų
Konvertuoti teksto vaizdus
Atpažinti šriftų tekstą
Ieškoti PDF
Kitos kalbos
Kurti OCR programas
Išsaugoti naršyklėje
Išgauti tekstą
Daugiagijų palaikymas

PHP-Apache-Tika

PHP-Apache-Tika palaiko populiarius suspaudimo failų formatus, išvardytus žemiau.

Skaitytojas

PNG, JPEG, BMP, TIFF, TGA, DICOM

Rašytojas

PNG, JPEG, BMP, TIFF

PHP-Apache-Tika

Platformos nepriklausomumas

PHP-Apache-Tika reikalauja tik PHP vykdymo aplinkos.

PHP 5.1 ir naujesnės versijos.

PHP-Apache-Tika

Pradžia su PHP-Apache-Tika

Rekomenduojamas būdas įdiegti PHP-Apache-Tika yra naudojant Composer. Prašome naudoti šią komandą sklandžiam diegimui.

Install PHP-Apache-Tika via Composer

composer require vaites/php-apache-tika

Install PHP-Apache-Tika via Github

git clone https://github.com/fizzday/OcrPHP.git

You can download the compiled shared library from Github repository.

Teksto ir HTML išgavimas naudojant PHP

Viena iš pagrindinių PHP-Apache-Tika bibliotekos savybių yra gebėjimas išgauti tekstą iš įvairių dokumentų formatų. Tai ypač naudinga įgyvendinant paieškos funkcijas arba turinio analizės įrankius. Biblioteka palaiko paprasto teksto išgavimą iš dokumentų, todėl lengviau indeksuoti, ieškoti ar analizuoti turinį. Štai kodo fragmentas, kuris rodo, kaip TikaClient siunčia dokumentą į Tika serverį ir gauna paprasto teksto turinį, paruošdamas jį tolesniam apdorojimui arba indeksavimui.

How to Extract Text from a Document inside PHP Apps?

require_once 'vendor/autoload.php';

use Vaites\ApacheTika\TikaClient;

// Initialize the Tika client with the Tika server URL
$client = new TikaClient('http://localhost:9998');

// Define the path to the document (e.g., PDF, DOCX, etc.)
$filePath = '/path/to/your/document.pdf';

try {
    // Extract text content from the document
    $extractedText = $client->extract($filePath);
    echo "Extracted Text:\n" . $extractedText;
} catch (\Exception $e) {
    echo "Error extracting text: " . $e->getMessage();
}

Metaduomenų išgavimas naudojant PHP biblioteką

Be to teksto, dokumentai dažnai turi vertingų metaduomenų, tokių kaip autoriaus informacija, sukūrimo datos ir failų tipai. PHP-Apache-Tika biblioteka gali išgauti šiuos metaduomenis, leidžiant kurti turtingesnes programas. Šiame pavyzdyje parodyta, kaip gauti metaduomenis iš dokumento. Gautas masyvas gali apimti įvairias detales, priklausomai nuo failo tipo ir jo turinio.

How to Extract Metadata using PHP Library?

require_once 'vendor/autoload.php';

use Vaites\ApacheTika\TikaClient;

// Initialize the Tika client
$client = new TikaClient('http://localhost:9998');

// Specify the document file path
$filePath = '/path/to/your/document.pdf';

try {
    // Extract metadata from the document
    $metadata = $client->getMetadata($filePath);
    echo "Extracted Metadata:\n";
    print_r($metadata);
} catch (\Exception $e) {
    echo "Error extracting metadata: " . $e->getMessage();
}

Daugelio failų formatų tvarkymas

Apache Tika galia slypi jos palaikyme daugelio failų formatų. Nesvarbu, ar dirbate su PDF, DOC, vaizdais ar net retesniais failų tipais, ši biblioteka padeda užtikrinti, kad galėtumėte išgauti reikiamus duomenis nesirūpinant formatų specifinėmis ypatybėmis. Įsivaizduokite, kad kuriate dokumentų valdymo sistemą, kurioje vartotojai gali įkelti įvairius failų tipus. Galite naudoti biblioteką, kad nustatytumėte tiek turinį, tiek metaduomenis kiekvienam failui: