Bezplatné PHP API pro extrakci textu a metadat z PDF a obrázků

Open source PHP knihovna pro optické rozpoznávání znaků (OCR) umožňuje extrahovat text, metadata a HTML z PDF, DOCX, obrázků (JPEG, PNG) a dalších dokumentů v různých jazycích v PHP aplikacích.

V oblasti vývoje softwaru může být práce s textem z různých typů souborů obtížná, ale je častým úkolem. Ať už vytváříte systém pro správu dokumentů, nástroj pro analýzu obsahu nebo vyhledávač, schopnost extrahovat text z PDF, Word dokumentů, tabulek a dalších formátů souborů je zásadní. Zde přichází na řadu knihovna PHP-Apache-Tika. Apache Tika je flexibilní nástroj určený pro správu úloh analýzy obsahu. Můžete použít Tiku k získání metadat a textu z různých typů souborů, jako jsou PDF, soubory Microsoft Office a obrázky. Tika byla původně napsána v Javě. Často je nasazena jako samostatný server, který je přístupný přes HTTP. Tento způsob umožňuje různým programovacím jazykům, například PHP, využívat silné možnosti Tiky, aniž by bylo nutné vytvářet složité procesy parsování od nuly.

Knihovna podporuje řadu funkcí, jako je extrakce textu a HTML, extrakce metadat, lepší zpracování chyb, rozpoznávání OCR, standardizovaná metadata pro dokumenty, podpora lokálních i vzdálených zdrojů a mnoho dalšího. Knihovna PHP-Apache-Tika propojuje PHP aplikace se serverem Apache Tika. Místo vytváření vlastních parserů nebo konvertorů můžete spoléhat na tuto knihovnu, která odešle dokumenty na server Tika a vrátí čistý extrahovaný text nebo metadata. To nejen zjednodušuje vývojový proces, ale také zajišťuje, že vaše aplikace těží z neustálých vylepšení Tiky a široké podpory formátů. Ať už vyvíjíte komplexní systém správy dokumentů nebo lehký nástroj pro analýzu obsahu, knihovna PHP-Apache-Tika poskytuje spolehlivé a flexibilní řešení.

Na první pohled

Přehled funkcí PHP-Apache-Tika.

Přehled funkcí

Provádět OCR
Přidat OCR funkce
Rozpoznávat text v mnoha jazycích
Převádět obrázky textu
Rozpoznaný text fontu
Prohledávat PDF
Další jazyky
Vytvářet OCR aplikace
Uložit do prohlížeče
Extrahovat text
Podpora více vláken

PHP-Apache-Tika

PHP-Apache-Tika podporuje populární kompresní formáty souborů uvedené níže.

Čtečka

PNG, JPEG, BMP, TIFF, TGA, DICOM

Zapisovač

PNG, JPEG, BMP, TIFF

PHP-Apache-Tika

Nezávislost na platformě

PHP-Apache-Tika vyžaduje pouze PHP Runtime.

PHP 5.1 a vyšší.

PHP-Apache-Tika

Začínáme s PHP-Apache-Tika

Doporučený způsob instalace PHP-Apache-Tika je pomocí Composeru. Použijte následující příkaz pro hladkou instalaci.

Instalace PHP-Apache-Tika přes Composer

composer require vaites/php-apache-tika

Instalace PHP-Apache-Tika přes Github

git clone https://github.com/fizzday/OcrPHP.git

Můžete stáhnout zkompilovanou sdílenou knihovnu z repozitáře Github.

Extrahování textu a HTML pomocí PHP

Jednou z hlavních funkcí knihovny PHP-Apache-Tika je její schopnost extrahovat text z různých formátů dokumentů. To může být zvláště užitečné při implementaci vyhledávacích funkcí nebo nástrojů pro analýzu obsahu. Knihovna podporuje extrakci prostého textu z dokumentů, což usnadňuje indexaci, vyhledávání nebo analýzu obsahu. Níže je ukázkový kód, který demonstruje, jak TikaClient odešle dokument na server Tika a získá prostý textový obsah, připravený k dalšímu zpracování nebo indexaci.

Jak extrahovat text z dokumentu v PHP aplikacích?

require_once 'vendor/autoload.php';

use Vaites\ApacheTika\TikaClient;

// Initialize the Tika client with the Tika server URL
$client = new TikaClient('http://localhost:9998');

// Define the path to the document (e.g., PDF, DOCX, etc.)
$filePath = '/path/to/your/document.pdf';

try {
    // Extract text content from the document
    $extractedText = $client->extract($filePath);
    echo "Extracted Text:\n" . $extractedText;
} catch (\Exception $e) {
    echo "Error extracting text: " . $e->getMessage();
}

Extrahování metadat pomocí PHP knihovny

Kromě textu dokumenty často obsahují cenná metadata, jako jsou informace o autorovi, datum vytvoření a typ souboru. Knihovna PHP-Apache-Tika může tato metadata extrahovat, což vám umožní vytvářet bohatší aplikace. Tento příklad ukazuje, jak získat metadata z dokumentu. Výsledné pole může obsahovat různé podrobnosti v závislosti na typu souboru a jeho obsahu.

Jak extrahovat metadata pomocí PHP knihovny?

require_once 'vendor/autoload.php';

use Vaites\ApacheTika\TikaClient;

// Initialize the Tika client
$client = new TikaClient('http://localhost:9998');

// Specify the document file path
$filePath = '/path/to/your/document.pdf';

try {
    // Extract metadata from the document
    $metadata = $client->getMetadata($filePath);
    echo "Extracted Metadata:\n";
    print_r($metadata);
} catch (\Exception $e) {
    echo "Error extracting metadata: " . $e->getMessage();
}

Zpracování více formátů souborů

Síla Apache Tika spočívá v podpoře mnoha formátů souborů. Ať už pracujete s PDF, DOC, obrázky nebo i méně běžnými typy souborů, tato knihovna vám pomůže zajistit extrakci potřebných dat bez starostí o specifické zvláštnosti formátů. Představte si, že vyvíjíte systém správy dokumentů, kde uživatelé mohou nahrávat různé typy souborů. Můžete použít knihovnu k určení jak obsahu, tak metadat pro každý soubor: