Free PHP API to Extract Text & Metadata from PDF and Images

Open Source PHP Optical Character Recognition Library allows to Extract Text, Metadata and HTML from PDF, DOCX, Images (JPEG, PNG) & Other Documents in Multiple Languages inside PHP Apps.

Ohjelmistokehityksen alalla tekstin käsittely eri tiedostotyypeistä voi olla haastavaa, mutta se on yleinen tehtävä. Olipa kyseessä asiakirjojen hallintajärjestelmä, sisällön analysointityökalu tai hakukone, on olennaista pystyä poimimaan tekstiä PDF:stä, Word-asiakirjoista, taulukoista ja muista tiedostomuodoista. Tässä kohtaa PHP-Apache-Tika‑kirjasto on arvokas. Apache Tika on joustava työkalupakki, joka on suunniteltu sisällön analysointitehtäviin. Voit käyttää Tikaa metatietojen ja tekstin poimintaan erilaisista tiedostotyypeistä, kuten PDF:stä, Microsoft Office -tiedostoista ja kuvista. Tika alun perin kirjoitettiin Java‑kielellä. Se asetetaan usein omaksi palvelimekseen, jolloin siihen pääsee HTTP‑rajapinnan kautta. Tämä menetelmä mahdollistaa eri ohjelmointikielten, kuten PHP:n, hyödyntää Tikan vahvoja ominaisuuksia ilman, että täytyy itse toteuttaa monimutkaisia jäsentämisprosesseja alusta alkaen.

Kirjasto tukee lukuisia ominaisuuksia, kuten tekstin ja HTML:n poimintaa, metatietojen poimintaa, parempaa virheenkäsittelyä, OCR‑tunnistusta, standardoituja metatietoja asiakirjoille, paikallisten ja etäresurssien tukea, ja monia muita. PHP-Apache-Tika‑kirjasto yhdistää PHP‑sovellukset Apache Tika -palvelimeen. Sen sijaan, että rakentaisit omia jäsennys- tai muunnostyökaluja, voit luottaa tähän kirjastoon lähettääksesi asiakirjat Tika‑palvelimelle ja saadaksesi takaisin puhdasta, poimittua tekstiä tai metatietoja. Tämä ei ainoastaan yksinkertaista kehitysprosessia, vaan varmistaa myös, että sovelluksesi hyötyy Tikan jatkuvista parannuksista ja laajasta formaattituen. Olipa kyseessä monimutkainen asiakirjojen hallintajärjestelmä tai kevyt sisällön analysointityökalu, PHP-Apache-Tika‑kirjasto tarjoaa luotettavan ja joustavan ratkaisun.

Katsaus

Yleiskatsaus PHP-Apache-Tika -ominaisuuksiin.

Ominaisuuksien yleiskatsaus

Suorita OCR
Lisää OCR-ominaisuuksia
Tunnista tekstiä monilla kielillä
Muunna tekstiä sisältäviä kuvia
Tunnistettu fonttiteksti
Hae PDF:stä
Muut kielet
Luo OCR-sovelluksia
Tallenna selaimeen
Poimi teksti
Monisäikeinen tuki

PHP-Apache-Tika

PHP-Apache-Tika tukee alla lueteltuja suosittuja pakkaustiedostomuotoja.

Lukija

PNG, JPEG, BMP, TIFF, TGA, DICOM

Kirjoittaja

PNG, JPEG, BMP, TIFF

PHP-Apache-Tika

Alustan riippumattomuus

PHP-Apache-Tika vaatii vain PHP-ympäristön.

PHP 5.1 tai uudempi.

PHP-Apache-Tika

Aloittaminen PHP-Apache-Tika:n kanssa

Suositeltu tapa asentaa PHP-Apache-Tika on Composerin käyttö. Käytä seuraavaa komentoa sujuvaa asennusta varten.

Asenna PHP-Apache-Tika Composerin kautta

composer require vaites/php-apache-tika

Asenna PHP-Apache-Tika GitHubin kautta

git clone https://github.com/fizzday/OcrPHP.git

You can download the compiled shared library from Github repository.

Tekstin ja HTML:n poiminta PHP:n avulla

Yksi PHP-Apache-Tika -kirjaston pääominaisuuksista on sen kyky poimia tekstiä eri asiakirjamuodoista. Tämä on erityisen hyödyllistä toteutettaessa hakutoimintoja tai sisällön analysointityökaluja. Kirjasto tukee puhtaan tekstin poimintaa asiakirjoista, mikä helpottaa sisällön indeksointia, hakua tai analysointia. Tässä on koodiesimerkki, joka näyttää miten TikaClient lähettää asiakirjan Tika-palvelimelle ja hakee puhtaan tekstin sisällön, valmiina jatkokäsittelyyn tai indeksointiin.

Kuinka poimia teksti asiakirjasta PHP-sovelluksissa?

require_once 'vendor/autoload.php';

use Vaites\ApacheTika\TikaClient;

// Initialize the Tika client with the Tika server URL
$client = new TikaClient('http://localhost:9998');

// Define the path to the document (e.g., PDF, DOCX, etc.)
$filePath = '/path/to/your/document.pdf';

try {
    // Extract text content from the document
    $extractedText = $client->extract($filePath);
    echo "Extracted Text:\n" . $extractedText;
} catch (\Exception $e) {
    echo "Error extracting text: " . $e->getMessage();
}

Metatietojen poiminta PHP-kirjaston avulla

Pelkkää tekstin lisäksi asiakirjoissa on usein arvokasta metatietoa, kuten tekijätiedot, luontipäivämäärät ja tiedostotyypit. PHP-Apache-Tika -kirjasto voi poimia nämä metatiedot, jolloin voit rakentaa rikkaampia sovelluksia. Tämä esimerkki näyttää, miten metatiedot haetaan asiakirjasta. Tuloksena oleva taulukko voi sisältää erilaisia tietoja riippuen tiedostotyypistä ja sen sisällöstä.

Kuinka poimia metatiedot PHP-kirjastolla?

require_once 'vendor/autoload.php';

use Vaites\ApacheTika\TikaClient;

// Initialize the Tika client
$client = new TikaClient('http://localhost:9998');

// Specify the document file path
$filePath = '/path/to/your/document.pdf';

try {
    // Extract metadata from the document
    $metadata = $client->getMetadata($filePath);
    echo "Extracted Metadata:\n";
    print_r($metadata);
} catch (\Exception $e) {
    echo "Error extracting metadata: " . $e->getMessage();
}

Useiden tiedostomuotojen käsittely

Apache Tikan voima perustuu sen tukeen useille tiedostomuodoille. Olipa kyseessä PDF:t, DOC:t, kuvat tai harvinaisemmat tiedostotyypit, tämä kirjasto varmistaa, että voit poimia tarvittavat tiedot huolehtimatta formaattikohtaisista erityispiirteistä. Kuvittele, että kehität asiakirjojen hallintajärjestelmää, jossa käyttäjät voivat ladata erilaisia tiedostotyyppejä. Voit käyttää kirjastoa määrittämään sekä sisällön että metatiedot jokaiselle tiedostolle: