Free PHP API to Extract Text & Metadata from PDF and Images

Open Source PHP Optical Character Recognition Library allows to Extract Text, Metadata and HTML from PDF, DOCX, Images (JPEG, PNG) & Other Documents in Multiple Languages inside PHP Apps.

A szoftverfejlesztés területén a különböző típusú fájlokból származó szöveggel való munka nehézkes lehet, de gyakori feladat. Akár dokumentumkezelő rendszert, tartalomelemző eszközt vagy keresőmotort hoz létre, elengedhetetlen a szöveg kinyerése PDF‑ekből, Word‑dokumentumokból, táblázatokból és egyéb fájlformátumokból. Itt jön képbe a PHP-Apache-Tika könyvtár. Az Apache Tika egy rugalmas eszközkészlet, amely a tartalomelemzési feladatok kezelésére készült. A Tika segítségével metaadatokat és szöveget nyerhet ki különféle fájltípusokból, például PDF‑ekből, Microsoft Office fájlokból és képekből. A Tika eredetileg Java‑ban íródott, gyakran saját szerverként van beállítva, amely HTTP‑n keresztül érhető el. Ez a megközelítés lehetővé teszi, hogy különböző programozási nyelvek, például a PHP, hozzáférjenek a Tika erőteljes képességeihez anélkül, hogy a semmiből kellene összetett elemző folyamatokat építeni.

A könyvtár számos funkciót támogat, többek között szöveg‑ és HTML‑kinyerést, metaadat‑kinyerést, fejlettebb hibakezelést, OCR‑felismerést, szabványosított metaadatot dokumentumokhoz, helyi és távoli erőforrások támogatását, és még sok mást. A PHP-Apache-Tika könyvtár összekapcsolja a PHP alkalmazásokat az Apache Tika szerverrel. Ahelyett, hogy saját elemzőket vagy konvertálókat építene, ezzel a könyvtárral dokumentumokat küldhet a Tika szervernek, és tiszta, kinyert szöveget vagy metaadatot kaphat vissza. Ez nemcsak leegyszerűsíti a fejlesztési folyamatot, hanem biztosítja, hogy alkalmazása részesüljön a Tika folyamatos fejlesztéseiből és széles körű formátumtámogatásából. Akár összetett dokumentumkezelő rendszert, akár könnyűsúlyú tartalomelemző eszközt fejleszt, a PHP-Apache-Tika könyvtár megbízható és rugalmas megoldást nyújt.

Áttekintés

A PHP-Apache-Tika funkcióinak áttekintése.

Funkciók áttekintése

OCR végrehajtása
OCR képességek hozzáadása
Szöveg felismerése sok nyelven
Szöveges képek konvertálása
Felismert betűtípus szöveg
PDF keresés
Egyéb nyelvek
OCR alkalmazások létrehozása
Mentés böngészőbe
Szöveg kinyerése
Többszálú támogatás

PHP-Apache-Tika

A PHP-Apache-Tika az alábbi népszerű tömörítési fájlformátumokat támogatja.

Olvasó

PNG, JPEG, BMP, TIFF, TGA, DICOM

Író

PNG, JPEG, BMP, TIFF

PHP-Apache-Tika

Platformfüggetlenség

A PHP-Apache-Tika csak PHP futtatókörnyezetet igényel.

PHP 5.1 és újabb.

PHP-Apache-Tika

A PHP-Apache-Tika használatának elkezdése

A PHP-Apache-Tika telepítésének ajánlott módja a Composer használata. Kérjük, használja a következő parancsot a zökkenőmentes telepítéshez.

PHP-Apache-Tika telepítése Composerrel

composer require vaites/php-apache-tika

PHP-Apache-Tika telepítése Githubon

git clone https://github.com/fizzday/OcrPHP.git

A lefordított megosztott könyvtárat letöltheti a Github tárolóból.

Szöveg- és HTML‑kinyerés PHP‑ban

A PHP-Apache-Tika könyvtár egyik fő funkciója a szöveg kinyerése különféle dokumentumformátumokból. Ez különösen hasznos lehet keresési funkciók vagy tartalomelemző eszközök megvalósításakor. A könyvtár támogatja a sima szöveg kinyerését a dokumentumokból, megkönnyítve ezzel az indexelést, keresést vagy a tartalom elemzését. Az alábbi kódrészlet bemutatja, hogyan küldi a TikaClient a dokumentumot a Tika szervernek, és hogyan kapja vissza a sima szövegtartalmat, amely készen áll a további feldolgozásra vagy indexelésre.

Hogyan nyerhet ki szöveget egy dokumentumból PHP‑alkalmazásokban?

require_once 'vendor/autoload.php';

use Vaites\ApacheTika\TikaClient;

// Initialize the Tika client with the Tika server URL
$client = new TikaClient('http://localhost:9998');

// Define the path to the document (e.g., PDF, DOCX, etc.)
$filePath = '/path/to/your/document.pdf';

try {
    // Extract text content from the document
    $extractedText = $client->extract($filePath);
    echo "Extracted Text:\n" . $extractedText;
} catch (\Exception $e) {
    echo "Error extracting text: " . $e->getMessage();
}

Metaadat‑kinyerés PHP‑könyvtárral

A szövegen túl a dokumentumok gyakran tartalmaznak értékes metaadatokat, például szerzői információkat, létrehozási dátumokat és fájltípusokat. A PHP-Apache-Tika könyvtár képes ezeket a metaadatokat kinyerni, lehetővé téve gazdagabb alkalmazások építését. Ez a példa bemutatja, hogyan lehet metaadatokat lekérni egy dokumentumból. A visszakapott tömb különféle részleteket tartalmazhat a fájltípustól és a tartalmától függően.

Hogyan nyerhet ki metaadatokat PHP‑könyvtárral?

require_once 'vendor/autoload.php';

use Vaites\ApacheTika\TikaClient;

// Initialize the Tika client
$client = new TikaClient('http://localhost:9998');

// Specify the document file path
$filePath = '/path/to/your/document.pdf';

try {
    // Extract metadata from the document
    $metadata = $client->getMetadata($filePath);
    echo "Extracted Metadata:\n";
    print_r($metadata);
} catch (\Exception $e) {
    echo "Error extracting metadata: " . $e->getMessage();
}

Több fájlformátum kezelése

Az Apache Tika ereje a többféle fájlformátum támogatásában rejlik. Akár PDF‑ekkel, DOC‑okkal, képekkel vagy akár kevésbé elterjedt fájltípusokkal dolgozik, ez a könyvtár segít biztosítani, hogy a szükséges adatokat kinyerje anélkül, hogy a formátumspecifikus sajátosságok miatt aggódna. Képzelje el, hogy egy dokumentumkezelő rendszert fejleszt, ahol a felhasználók különböző fájltípusokat tölthetnek fel. A könyvtár segítségével meghatározhatja mind a tartalmat, mind a metaadatokat minden egyes fájlhoz: