Bibliothèque PHP pour extraire le texte d'images en plusieurs langues

L'API Open Source de reconnaissance optique de caractères PHP permet de charger et numériser des images ou des documents, de reconnaître et d'extractor le texte d'images en plusieurs langues dans les applications PHP.

La technologie de reconnaissance optique de caractères (OCR) est devenue un outil essentiel pour extraire du texte à partir d'images et de documents de nos jours. Avec l'essor de la transformation numérique, le besoin de solutions OCR efficaces et précises n'a jamais été aussi pressant. OcrPHP est une bibliothèque OCR open source très puissante qui permet aux développeurs de créer des applications OCR robustes et évolutives. Il s'agit d'une bibliothèque OCR basée sur PHP qui utilise le moteur Tesseract OCR, une technologie OCR largement utilisée et très réputée développée par Google. La bibliothèque comprend de nombreuses fonctionnalités, telles que la numérisation de documents, l'extraction de texte à partir d'images, l'extraction de texte dans une langue spécifique, l'extraction de texte à partir de PDF, et bien plus encore.

La bibliothèque OcrPHP intègre des techniques avancées de prétraitement d'image, telles que la correction d'inclinaison, le dépoussiérage et la binarisation, afin d'améliorer la précision de l'OCR. Elle prend en charge l'exécution de l'OCR en plusieurs langues, dont l'anglais, l'espagnol, le français, l'allemand, l'italien, le portugais, le chinois, le japonais, et bien d'autres. Les développeurs peuvent personnaliser le processus OCR en ajustant des paramètres tels que la langue, le mode de segmentation de page et les réglages du moteur OCR. Elle comprend également des mécanismes robustes de gestion des erreurs pour garantir que les opérations OCR s'exécutent de manière fluide et efficace. Grâce à des fonctionnalités telles que la prise en charge multilingue, le scan d'images avancé, les configurations personnalisées et une intégration simple, elle permet aux développeurs de créer des outils de reconnaissance de texte polyvalents avec peu d'effort et à faible coût.

En un coup d'œil

Un aperçu des fonctionnalités d'OcrPHP.

Aperçu des fonctionnalités

Effectuer de l'OCR
Ajouter des capacités OCR
Reconnaître le texte en plusieurs langues
Convertir les images de texte
Texte de police reconnu
Rechercher dans les PDF
Autres langues
Créer des applications OCR
Enregistrer dans le navigateur
Extraire le texte
Support du multithreading

OcrPHP

OcrPHP prend en charge les formats de fichiers de compression populaires listés ci-dessous.

Lecteur

PNG, JPEG, BMP, TIFF, TGA, DICOM

Écrivain

PNG, JPEG, BMP, TIFF

OcrPHP

Indépendance de la plateforme

OcrPHP ne nécessite que le runtime PHP.

PHP 5.1 et supérieur.

OcrPHP

Commencer avec OcrPHP

La méthode recommandée pour installer OcrPHP est d'utiliser Composer. Veuillez utiliser la commande suivante pour une installation fluide.

Install OcrPHP via Composer

composer require fizzday/ocrphp

Install OcrPHP via Github

git clone https://github.com/fizzday/OcrPHP.git

Vous pouvez télécharger la bibliothèque partagée compilée depuis le dépôt Github.

Reconnaître et extraire le texte d'une image via PHP

La bibliothèque open source OcrPHP facilite le chargement de divers types d'images et l'extraction du texte de ces images avec seulement quelques lignes de code PHP. Voici un exemple très simple, qui utilise la bibliothèque Imagick pour charger un fichier image et créer une instance de la classe OcrPHP. Les développeurs peuvent ensuite définir la langue et les paramètres du moteur OCR avant d'exécuter l'OCR sur l'image à l'aide de la méthode recognize(). Enfin, le texte extrait est affiché avec la méthode getText().

Comment extraire le texte d'une image en utilisant la bibliothèque PHP ?

require_once 'OcrPHP/autoload.php';

// Load the image file
$image = new Imagick('path/to/image.jpg');

// Create an instance of the OcrPHP class
$ocr = new OcrPHP();

// Set the language and OCR engine settings
$ocr->setLanguage('eng');
$ocr->setPageSegmentationMode(OcrPHP::PSM_SINGLE_BLOCK);

// Perform OCR on the image
$result = $ocr->recognize($image);

// Print the extracted text
echo $result->getText();

Reconnaître le texte dans une langue spécifique via PHP

La bibliothèque OcrPHP prend en charge plusieurs langues pour réaliser des opérations OCR dans les applications PHP. Que votre texte soit en anglais, en chinois ou dans toute autre langue prise en charge, OcrPHP peut le gérer sans problème. Pour extraire le texte dans une langue spécifique, transmettez le code de langue en paramètre. Assurez‑vous que le modèle de langue Tesseract correspondant est installé. L'exemple suivant montre comment les développeurs peuvent extraire du texte d'images en langue chinoise dans des applications PHP.

Comment extraire le texte d'une image en langue chinoise via PHP ?

require 'vendor/autoload.php';

use Fizzday\Ocr\Ocr;

$imagePath = __DIR__ . '/example-image-chinese.png';

$ocr = new Ocr();

// Extract text in Chinese
$text = $ocr->scan($imagePath, 'chi_sim'); // Use 'eng' for English

echo "Extracted Text (Chinese): \n" . $text;

Traitement par lots et automatisation OCR via PHP

Pour les développeurs créant des applications de traitement de documents, le traitement par lots peut être une fonctionnalité précieuse. OcrPHP facilite la boucle sur un répertoire de fichiers image et l'extraction du texte de chacun automatiquement. C'est parfait pour automatiser des tâches comme la numérisation de factures, de reçus ou de livres. Voici un exemple très utile qui parcourt tous les fichiers .png du répertoire spécifié, extrait le texte de chaque fichier et l'affiche. Vous pouvez étendre cela pour enregistrer la sortie dans un fichier ou une base de données, ce qui en fait un outil puissant pour le traitement de documents.

Comment extraire le texte de plusieurs images via la bibliothèque PHP ?

require 'vendor/autoload.php';

use Fizzday\Ocr\Ocr;

$directory = __DIR__ . '/images/';
$ocr = new Ocr();

foreach (glob($directory . '*.png') as $imagePath) {
    $text = $ocr->scan($imagePath);
    echo "Text from {$imagePath}: \n" . $text . "\n\n";
}

Configuration personnalisée et support d'intégration

La bibliothèque open source OcrPHP est polyvalente et conviviale pour les développeurs, simplifiant l'intégration des capacités OCR dans les projets PHP. La bibliothèque permet de spécifier des configurations Tesseract personnalisées, telles que la langue, le mode de segmentation de page et les paramètres de prétraitement d'image, offrant ainsi la flexibilité nécessaire pour adapter les résultats OCR.