Free PHP API to Extract Text & Metadata from PDF and Images
Open Source PHP Optical Character Recognition Library allows to Extract Text, Metadata and HTML from PDF, DOCX, Images (JPEG, PNG) & Other Documents in Multiple Languages inside PHP Apps.
A szoftverfejlesztés területén a különböző típusú fájlokból származó szöveggel való munka nehézkes lehet, de gyakori feladat. Akár dokumentumkezelő rendszert, tartalomelemző eszközt vagy keresőmotort hoz létre, elengedhetetlen a szöveg kinyerése PDF‑ekből, Word‑dokumentumokból, táblázatokból és egyéb fájlformátumokból. Itt jön képbe a PHP-Apache-Tika könyvtár. Az Apache Tika egy rugalmas eszközkészlet, amely a tartalomelemzési feladatok kezelésére készült. A Tika segítségével metaadatokat és szöveget nyerhet ki különféle fájltípusokból, például PDF‑ekből, Microsoft Office fájlokból és képekből. A Tika eredetileg Java‑ban íródott, gyakran saját szerverként van beállítva, amely HTTP‑n keresztül érhető el. Ez a megközelítés lehetővé teszi, hogy különböző programozási nyelvek, például a PHP, hozzáférjenek a Tika erőteljes képességeihez anélkül, hogy a semmiből kellene összetett elemző folyamatokat építeni.
A könyvtár számos funkciót támogat, többek között szöveg‑ és HTML‑kinyerést, metaadat‑kinyerést, fejlettebb hibakezelést, OCR‑felismerést, szabványosított metaadatot dokumentumokhoz, helyi és távoli erőforrások támogatását, és még sok mást. A PHP-Apache-Tika könyvtár összekapcsolja a PHP alkalmazásokat az Apache Tika szerverrel. Ahelyett, hogy saját elemzőket vagy konvertálókat építene, ezzel a könyvtárral dokumentumokat küldhet a Tika szervernek, és tiszta, kinyert szöveget vagy metaadatot kaphat vissza. Ez nemcsak leegyszerűsíti a fejlesztési folyamatot, hanem biztosítja, hogy alkalmazása részesüljön a Tika folyamatos fejlesztéseiből és széles körű formátumtámogatásából. Akár összetett dokumentumkezelő rendszert, akár könnyűsúlyú tartalomelemző eszközt fejleszt, a PHP-Apache-Tika könyvtár megbízható és rugalmas megoldást nyújt.
A PHP-Apache-Tika használatának elkezdése
A PHP-Apache-Tika telepítésének ajánlott módja a Composer használata. Kérjük, használja a következő parancsot a zökkenőmentes telepítéshez.
PHP-Apache-Tika telepítése Composerrel
composer require vaites/php-apache-tikaPHP-Apache-Tika telepítése Githubon
git clone https://github.com/fizzday/OcrPHP.git A lefordított megosztott könyvtárat letöltheti a Github tárolóból.
Szöveg- és HTML‑kinyerés PHP‑ban
A PHP-Apache-Tika könyvtár egyik fő funkciója a szöveg kinyerése különféle dokumentumformátumokból. Ez különösen hasznos lehet keresési funkciók vagy tartalomelemző eszközök megvalósításakor. A könyvtár támogatja a sima szöveg kinyerését a dokumentumokból, megkönnyítve ezzel az indexelést, keresést vagy a tartalom elemzését. Az alábbi kódrészlet bemutatja, hogyan küldi a TikaClient a dokumentumot a Tika szervernek, és hogyan kapja vissza a sima szövegtartalmat, amely készen áll a további feldolgozásra vagy indexelésre.
Hogyan nyerhet ki szöveget egy dokumentumból PHP‑alkalmazásokban?
require_once 'vendor/autoload.php';
use Vaites\ApacheTika\TikaClient;
// Initialize the Tika client with the Tika server URL
$client = new TikaClient('http://localhost:9998');
// Define the path to the document (e.g., PDF, DOCX, etc.)
$filePath = '/path/to/your/document.pdf';
try {
// Extract text content from the document
$extractedText = $client->extract($filePath);
echo "Extracted Text:\n" . $extractedText;
} catch (\Exception $e) {
echo "Error extracting text: " . $e->getMessage();
}
Metaadat‑kinyerés PHP‑könyvtárral
A szövegen túl a dokumentumok gyakran tartalmaznak értékes metaadatokat, például szerzői információkat, létrehozási dátumokat és fájltípusokat. A PHP-Apache-Tika könyvtár képes ezeket a metaadatokat kinyerni, lehetővé téve gazdagabb alkalmazások építését. Ez a példa bemutatja, hogyan lehet metaadatokat lekérni egy dokumentumból. A visszakapott tömb különféle részleteket tartalmazhat a fájltípustól és a tartalmától függően.
Hogyan nyerhet ki metaadatokat PHP‑könyvtárral?
require_once 'vendor/autoload.php';
use Vaites\ApacheTika\TikaClient;
// Initialize the Tika client
$client = new TikaClient('http://localhost:9998');
// Specify the document file path
$filePath = '/path/to/your/document.pdf';
try {
// Extract metadata from the document
$metadata = $client->getMetadata($filePath);
echo "Extracted Metadata:\n";
print_r($metadata);
} catch (\Exception $e) {
echo "Error extracting metadata: " . $e->getMessage();
}
Több fájlformátum kezelése
Az Apache Tika ereje a többféle fájlformátum támogatásában rejlik. Akár PDF‑ekkel, DOC‑okkal, képekkel vagy akár kevésbé elterjedt fájltípusokkal dolgozik, ez a könyvtár segít biztosítani, hogy a szükséges adatokat kinyerje anélkül, hogy a formátumspecifikus sajátosságok miatt aggódna. Képzelje el, hogy egy dokumentumkezelő rendszert fejleszt, ahol a felhasználók különböző fájltípusokat tölthetnek fel. A könyvtár segítségével meghatározhatja mind a tartalmat, mind a metaadatokat minden egyes fájlhoz: