Free PHP API to Extract Text & Metadata from PDF and Images

Open Source PHP Optical Character Recognition Library allows to Extract Text, Metadata and HTML from PDF, DOCX, Images (JPEG, PNG) & Other Documents in Multiple Languages inside PHP Apps.

Dans le domaine du développement logiciel, gérer le texte provenant de différents types de fichiers peut être délicat mais constitue une tâche fréquente. Que vous créiez un système de gestion de documents, un outil d'analyse de contenu ou un moteur de recherche, pouvoir extraire le texte des PDF, des documents Word, des feuilles de calcul et d'autres formats de fichiers est essentiel. C’est ici que la bibliothèque PHP‑Apache‑Tika devient précieuse. Apache Tika est une boîte à outils flexible conçue pour gérer les travaux d’analyse de contenu. Vous pouvez utiliser Tika pour extraire les métadonnées et le texte de divers types de fichiers tels que les PDF, les fichiers Microsoft Office et les images. Tika a été initialement développé en Java. Il est souvent déployé comme serveur autonome, accessible via HTTP. Cette méthode permet à différents langages de programmation, comme PHP, d’exploiter les puissantes capacités de Tika sans avoir à créer des processus d’analyse complexes à partir de zéro.

La bibliothèque prend en charge de nombreuses fonctionnalités telles que l’extraction de texte et de HTML, l’extraction de métadonnées, une meilleure gestion des erreurs, la reconnaissance OCR, des métadonnées standardisées pour les documents, la prise en charge des ressources locales et distantes, et bien plus encore. La bibliothèque PHP‑Apache‑Tika fait le lien entre les applications PHP et le serveur Apache Tika. Au lieu de développer vos propres analyseurs ou convertisseurs, vous pouvez vous appuyer sur cette bibliothèque pour envoyer des documents au serveur Tika et recevoir en retour du texte ou des métadonnées propres et extraits. Cela simplifie non seulement le processus de développement, mais garantit également que votre application bénéficie des améliorations continues de Tika et de son large support de formats. Que vous développiez un système de gestion de documents complexe ou un outil léger d’analyse de contenu, la bibliothèque PHP‑Apache‑Tika offre une solution fiable et flexible.

En un coup d'œil

Un aperçu des fonctionnalités de PHP‑Apache‑Tika.

Vue d’ensemble des fonctionnalités

Effectuer l'OCR
Ajouter des capacités OCR
Reconnaître le texte dans de nombreuses langues
Convertir les images de texte
Texte de police reconnu
Rechercher dans les PDF
Autres langues
Créer des applications OCR
Enregistrer dans le navigateur
Extraire le texte
Prise en charge du multithreading

PHP-Apache-Tika

PHP‑Apache‑Tika prend en charge les formats de fichiers de compression populaires répertoriés ci-dessous.

Lecteur

PNG, JPEG, BMP, TIFF, TGA, DICOM

Écrivain

PNG, JPEG, BMP, TIFF

PHP-Apache-Tika

Indépendance de la plateforme

PHP‑Apache‑Tika ne nécessite que le runtime PHP.

PHP 5.1 et supérieur.

PHP-Apache-Tika

Commencer avec PHP‑Apache‑Tika

La façon recommandée d'installer PHP‑Apache‑Tika est d'utiliser Composer. Veuillez utiliser la commande suivante pour une installation fluide.

Installer PHP‑Apache‑Tika via Composer

composer require vaites/php-apache-tika

Installer PHP‑Apache‑Tika via Github

git clone https://github.com/fizzday/OcrPHP.git

Vous pouvez télécharger la bibliothèque partagée compilée depuis le dépôt Github.

Extraction de texte et HTML via PHP

L’une des principales fonctionnalités de la bibliothèque PHP‑Apache‑Tika est sa capacité à extraire du texte de divers formats de documents. Cela peut être particulièrement utile lors de la mise en œuvre de fonctions de recherche ou d’outils d’analyse de contenu. La bibliothèque prend en charge l’extraction de texte brut à partir des documents, ce qui facilite l’indexation, la recherche ou l’analyse du contenu. Voici un extrait de code qui montre comment TikaClient envoie le document au serveur Tika et récupère le texte brut, le rendant prêt pour un traitement ou une indexation ultérieure.

Comment extraire le texte d’un document dans des applications PHP ?

require_once 'vendor/autoload.php';

use Vaites\ApacheTika\TikaClient;

// Initialise le client Tika avec l’URL du serveur Tika
$client = new TikaClient('http://localhost:9998');

// Définit le chemin du document (ex. : PDF, DOCX, etc.)
$filePath = '/path/to/your/document.pdf';

try {
    // Extrait le contenu texte du document
    $extractedText = $client->extract($filePath);
    echo "Extracted Text:\n" . $extractedText;
} catch (\Exception $e) {
    echo "Error extracting text: " . $e->getMessage();
}

Extraction de métadonnées via la bibliothèque PHP

Au‑delà du texte, les documents contiennent souvent des métadonnées précieuses telles que les informations d’auteur, les dates de création et les types de fichiers. La bibliothèque PHP‑Apache‑Tika peut extraire ces métadonnées, vous permettant de créer des applications plus riches. Cet exemple montre comment récupérer les métadonnées d’un document. Le tableau résultant peut inclure divers détails selon le type de fichier et son contenu.

Comment extraire les métadonnées avec la bibliothèque PHP ?

require_once 'vendor/autoload.php';

use Vaites\ApacheTika\TikaClient;

// Initialise le client Tika
$client = new TikaClient('http://localhost:9998');

// Spécifie le chemin du fichier document
$filePath = '/path/to/your/document.pdf';

try {
    // Extrait les métadonnées du document
    $metadata = $client->getMetadata($filePath);
    echo "Extracted Metadata:\n";
    print_r($metadata);
} catch (\Exception $e) {
    echo "Error extracting metadata: " . $e->getMessage();
}

Gestion de plusieurs formats de fichiers

La puissance d’Apache Tika réside dans son support de multiples formats de fichiers. Que vous travailliez avec des PDF, des DOC, des images ou même des types de fichiers moins courants, cette bibliothèque vous aide à extraire les données nécessaires sans vous soucier des particularités propres à chaque format. Imaginez que vous développiez un système de gestion de documents où les utilisateurs peuvent télécharger différents types de fichiers. Vous pourriez utiliser la bibliothèque pour déterminer à la fois le contenu et les métadonnées de chaque fichier :

Free PHP API to Extract Text & Metadata from PDF and Images

Open Source PHP Optical Character Recognition Library allows to Extract Text, Metadata and HTML from PDF, DOCX, Images (JPEG, PNG) & Other Documents in Multiple Languages inside PHP Apps.

En un coup d'œil

Indépendance de la plateforme

Commencer avec PHP‑Apache‑Tika

Installer PHP‑Apache‑Tika via Composer

Installer PHP‑Apache‑Tika via Github

Extraction de texte et HTML via PHP

Comment extraire le texte d’un document dans des applications PHP ?

Extraction de métadonnées via la bibliothèque PHP

Comment extraire les métadonnées avec la bibliothèque PHP ?

Gestion de plusieurs formats de fichiers

Comment extraire le texte d’un document dans des applications PHP ?

Comment extraire les métadonnées avec la bibliothèque PHP ?