Bibliothèque PHP Open Source pour les opérations OCR sur les images
API gratuite de reconnaissance optique de caractères PHP pour effectuer des opérations OCR sur des images, des documents numérisés et des PDF à l'aide de la bibliothèque PHP Tesseract.
Parmi les nombreux outils OCR disponibles, Tesseract OCR se distingue comme l'une des API les plus puissantes et les plus polyvalentes permettant aux développeurs de logiciels de créer des applications pour reconnaître et extraire du texte à partir de diverses sources visuelles populaires. Tesseract OCR for PHP est un wrapper très utile pour travailler avec Tesseract OCR dans les applications PHP. La bibliothèque open source Tesseract OCR pour PHP peut améliorer la précision de l'OCR en prétraitant l'image. Des techniques telles que le redimensionnement, la binarisation, la suppression du bruit et le redressement peuvent être appliquées pour améliorer la visibilité du texte et supprimer tout artefact susceptible d'entraver la reconnaissance.
La bibliothèque Tesseract OCR pour PHP offre plusieurs fonctionnalités avancées et options de personnalisation pour améliorer les résultats OCR dans les applications PHP, telles que la gestion de documents multilingues, la spécification de la ou des langues souhaitées lors de l'initialisation OCR pour améliorer la précision de langues spécifiques, la prise en charge des modes de segmentation de page, l'amélioration de la précision de la reconnaissance pour les applications spécialisées, la prise en charge de la formation sur les polices ou symboles personnalisés, ou les modèles de texte spécifiques, améliorent l'accessibilité, la numérisation des documents, l'analyse de texte, l'extraction de données et bien d'autres encore.
Utilisez le wrapper PHP Tesseract pour transmettre l'image prétraitée au moteur OCR Tesseract. Le wrapper fournit des fonctions pour exécuter l'OCR et récupérer le texte reconnu en conséquence. Le texte extrait peut nécessiter des étapes de post-traitement supplémentaires telles que la vérification orthographique, le formatage ou des modifications spécifiques à la langue. Des bibliothèques PHP comme Symfony/string ou Text_LanguageDetect peuvent être utilisées à ces fins. En intégrant Tesseract OCR dans vos projets PHP, les développeurs de logiciels peuvent rationaliser le traitement des documents, automatiser l'extraction de données et débloquer un nouveau niveau d'efficacité et d'accessibilité dans leurs applications.
Premiers pas avec Tesseract OCR pour PHP
La méthode recommandée pour installer Tesseract OCR pour PHP consiste à utiliser Composer. Veuillez utiliser la commande suivante pour une installation fluide.
Installer Tesseract OCR pour PHP via Composer
$ composer require thiagoalessio/tesseract_ocr
Installer Tesseract OCR pour PHP via Github
git clone https://github.com/thiagoalessio/tesseract-ocr-for-php.git
Vous pouvez télécharger la bibliothèque partagée compilée depuis le dépôt Github.
Extraire le texte de l'image dans les applications PHP
La bibliothèque open source Tesseract OCR pour PHP a fourni des fonctionnalités utiles pour extraire du texte à partir d'images à l'aide de commandes PHP. La bibliothèque propose différents modes de segmentation de page pour gérer diverses mises en page et dispositions de texte. Démarrez le processus d'extraction en chargeant l'image ou le document contenant le texte que vous souhaitez extraire. Utilisez le wrapper PHP Tesseract pour transmettre l'image prétraitée au moteur OCR Tesseract. Le wrapper fournit des fonctions pour exécuter l'OCR et récupérer le texte reconnu en conséquence. L'exemple suivant montre un processus de base de chargement d'une image et d'extraction de texte à l'aide de commandes PHP.
Comment charger une image et extraire du texte à l'aide du code PHP ?
use TesseractOCR\TesseractOCR;
$imagePath = '/path/to/your/image.jpg';
$tesseract = new TesseractOCR($imagePath);
$tesseract->setLanguage('eng'); // Set the desired language for text recognition
$text = $tesseract->run();
echo $text;
Gestion de la sortie OCR dans les applications PHP
La bibliothèque open source Tesseract OCR pour PHP inclut des fonctionnalités très utiles pour enregistrer et utiliser le texte de sortie de l'OCR dans les applications PHP. Il permet d'enregistrer le texte sortant dans certains formats populaires tels que PDF, TXT, HTML, Word et bien d'autres. Il permet de gérer le texte reconnu extrait de l'image. En fonction des exigences de votre application, vous devrez peut-être poursuivre le traitement ou analyser le texte extrait. Les tâches courantes incluent la validation des données, le nettoyage du texte, la vérification orthographique, le formatage, l'intégration avec d'autres systèmes pour un traitement avancé ou des modifications spécifiques à la langue. Les développeurs de logiciels peuvent facilement analyser de grands volumes de données textuelles extraites de documents, de flux de réseaux sociaux ou de commentaires de clients pour en tirer des informations, une analyse des sentiments ou une modélisation de sujets.
Récupérez les données d'image, dimensionnez-les et enregistrez-les au format PDF via l'API PHP
//Using Imagick
$data = $img->getImageBlob();
$size = $img->getImageLength();
//Using GD
ob_start();
// Note that you can use any format supported by tesseract
imagepng($img, null, 0);
$size = ob_get_length();
$data = ob_get_clean();
$ocr = new TesseractOCR();
$ocr->imageData($data, $size);
$ocr->run();
// Save the Output to PDF file
echo (new TesseractOCR('img.png'))
->configFile('pdf')
->setOutputFile('/PATH_TO_MY_OUTPUTFILE/searchable.pdf')
->run();