1. Termékek
  2.   OCR
  3.   PHP
  4.   PHP-Apache-Tika
 
  

Free PHP API to Extract Text & Metadata from PDF and Images

Open Source PHP Optical Character Recognition Library allows to Extract Text, Metadata and HTML from PDF, DOCX, Images (JPEG, PNG) & Other Documents in Multiple Languages inside PHP Apps.

A szoftverfejlesztés területén a különböző típusú fájlokból származó szöveggel való munka nehézkes lehet, de gyakori feladat. Akár dokumentumkezelő rendszert, tartalomelemző eszközt vagy keresőmotort hoz létre, elengedhetetlen a szöveg kinyerése PDF‑ekből, Word‑dokumentumokból, táblázatokból és egyéb fájlformátumokból. Itt jön képbe a PHP-Apache-Tika könyvtár. Az Apache Tika egy rugalmas eszközkészlet, amely a tartalomelemzési feladatok kezelésére készült. A Tika segítségével metaadatokat és szöveget nyerhet ki különféle fájltípusokból, például PDF‑ekből, Microsoft Office fájlokból és képekből. A Tika eredetileg Java‑ban íródott, gyakran saját szerverként van beállítva, amely HTTP‑n keresztül érhető el. Ez a megközelítés lehetővé teszi, hogy különböző programozási nyelvek, például a PHP, hozzáférjenek a Tika erőteljes képességeihez anélkül, hogy a semmiből kellene összetett elemző folyamatokat építeni.

A könyvtár számos funkciót támogat, többek között szöveg‑ és HTML‑kinyerést, metaadat‑kinyerést, fejlettebb hibakezelést, OCR‑felismerést, szabványosított metaadatot dokumentumokhoz, helyi és távoli erőforrások támogatását, és még sok mást. A PHP-Apache-Tika könyvtár összekapcsolja a PHP alkalmazásokat az Apache Tika szerverrel. Ahelyett, hogy saját elemzőket vagy konvertálókat építene, ezzel a könyvtárral dokumentumokat küldhet a Tika szervernek, és tiszta, kinyert szöveget vagy metaadatot kaphat vissza. Ez nemcsak leegyszerűsíti a fejlesztési folyamatot, hanem biztosítja, hogy alkalmazása részesüljön a Tika folyamatos fejlesztéseiből és széles körű formátumtámogatásából. Akár összetett dokumentumkezelő rendszert, akár könnyűsúlyú tartalomelemző eszközt fejleszt, a PHP-Apache-Tika könyvtár megbízható és rugalmas megoldást nyújt.

Previous Next

A PHP-Apache-Tika használatának elkezdése

A PHP-Apache-Tika telepítésének ajánlott módja a Composer használata. Kérjük, használja a következő parancsot a zökkenőmentes telepítéshez.

PHP-Apache-Tika telepítése Composerrel

composer require vaites/php-apache-tika

PHP-Apache-Tika telepítése Githubon

git clone https://github.com/fizzday/OcrPHP.git 

A lefordított megosztott könyvtárat letöltheti a Github tárolóból.

Szöveg- és HTML‑kinyerés PHP‑ban

A PHP-Apache-Tika könyvtár egyik fő funkciója a szöveg kinyerése különféle dokumentumformátumokból. Ez különösen hasznos lehet keresési funkciók vagy tartalomelemző eszközök megvalósításakor. A könyvtár támogatja a sima szöveg kinyerését a dokumentumokból, megkönnyítve ezzel az indexelést, keresést vagy a tartalom elemzését. Az alábbi kódrészlet bemutatja, hogyan küldi a TikaClient a dokumentumot a Tika szervernek, és hogyan kapja vissza a sima szövegtartalmat, amely készen áll a további feldolgozásra vagy indexelésre.

Hogyan nyerhet ki szöveget egy dokumentumból PHP‑alkalmazásokban?

require_once 'vendor/autoload.php';

use Vaites\ApacheTika\TikaClient;

// Initialize the Tika client with the Tika server URL
$client = new TikaClient('http://localhost:9998');

// Define the path to the document (e.g., PDF, DOCX, etc.)
$filePath = '/path/to/your/document.pdf';

try {
    // Extract text content from the document
    $extractedText = $client->extract($filePath);
    echo "Extracted Text:\n" . $extractedText;
} catch (\Exception $e) {
    echo "Error extracting text: " . $e->getMessage();
}

Metaadat‑kinyerés PHP‑könyvtárral

A szövegen túl a dokumentumok gyakran tartalmaznak értékes metaadatokat, például szerzői információkat, létrehozási dátumokat és fájltípusokat. A PHP-Apache-Tika könyvtár képes ezeket a metaadatokat kinyerni, lehetővé téve gazdagabb alkalmazások építését. Ez a példa bemutatja, hogyan lehet metaadatokat lekérni egy dokumentumból. A visszakapott tömb különféle részleteket tartalmazhat a fájltípustól és a tartalmától függően.

Hogyan nyerhet ki metaadatokat PHP‑könyvtárral?

require_once 'vendor/autoload.php';

use Vaites\ApacheTika\TikaClient;

// Initialize the Tika client
$client = new TikaClient('http://localhost:9998');

// Specify the document file path
$filePath = '/path/to/your/document.pdf';

try {
    // Extract metadata from the document
    $metadata = $client->getMetadata($filePath);
    echo "Extracted Metadata:\n";
    print_r($metadata);
} catch (\Exception $e) {
    echo "Error extracting metadata: " . $e->getMessage();
}

Több fájlformátum kezelése

Az Apache Tika ereje a többféle fájlformátum támogatásában rejlik. Akár PDF‑ekkel, DOC‑okkal, képekkel vagy akár kevésbé elterjedt fájltípusokkal dolgozik, ez a könyvtár segít biztosítani, hogy a szükséges adatokat kinyerje anélkül, hogy a formátumspecifikus sajátosságok miatt aggódna. Képzelje el, hogy egy dokumentumkezelő rendszert fejleszt, ahol a felhasználók különböző fájltípusokat tölthetnek fel. A könyvtár segítségével meghatározhatja mind a tartalmat, mind a metaadatokat minden egyes fájlhoz:

 Magyar