Open-Source-PHP-Bibliothek für OCR-Operationen an Bildern
Kostenlose PHP-API zur optischen Zeichenerkennung zum Durchführen von OCR-Vorgängen an Bildern, gescannten Dokumenten und PDFs mithilfe der Tesseract-PHP-Bibliothek.
Unter den zahlreichen verfügbaren OCR-Tools sticht Tesseract OCR als eine der leistungsstärksten und vielseitigsten APIs hervor, mit der Softwareentwickler Anwendungen zum Erkennen und Extrahieren von Text aus verschiedenen gängigen visuellen Quellen erstellen können. Tesseract OCR für PHP ist ein sehr nützlicher Wrapper für die Arbeit mit Tesseract OCR in PHP-Anwendungen. Die Open-Source-Bibliothek Tesseract OCR für PHP kann die OCR-Genauigkeit durch Vorverarbeitung des Bildes verbessern. Techniken wie Größenanpassung, Binärisierung, Rauschunterdrückung und Entzerrung können angewendet werden, um die Sichtbarkeit des Textes zu verbessern und alle Artefakte zu entfernen, die die Erkennung behindern könnten.
Die Tesseract OCR-Bibliothek für PHP bietet mehrere erweiterte Funktionen und Anpassungsoptionen zur Verbesserung der OCR-Ergebnisse in PHP-Anwendungen, wie z. B. die Verarbeitung mehrsprachiger Dokumente, die Angabe der gewünschten Sprache(n) während der OCR-Initialisierung zur Verbesserung der Genauigkeit für bestimmte Sprachen, Unterstützung von Seitensegmentierungsmodi, Verbesserung der Erkennungsgenauigkeit für spezialisierte Anwendungen, Trainingsunterstützung für benutzerdefinierte Schriftarten oder Symbole oder bestimmte Textmuster, Verbesserung der Zugänglichkeit, Dokumentendigitalisierung, Textanalyse, Datenextraktion und vieles mehr.
Verwenden Sie den Tesseract PHP-Wrapper, um das vorverarbeitete Bild an die Tesseract OCR-Engine zu übergeben. Der Wrapper bietet Funktionen zur Ausführung von OCR und zum Abrufen des erkannten Textes als Ergebnis. Der extrahierte Text erfordert möglicherweise zusätzliche Nachbearbeitungsschritte wie Rechtschreibprüfung, Formatierung oder sprachspezifische Änderungen. PHP-Bibliotheken wie Symfony/string oder Text_LanguageDetect können für diese Zwecke eingesetzt werden. Durch die Integration von Tesseract OCR in Ihre PHP-Projekte können Softwareentwickler die Dokumentenverarbeitung optimieren, die Datenextraktion automatisieren und ihren Anwendungen ein neues Maß an Effizienz und Zugänglichkeit verleihen.
Erste Schritte mit Tesseract OCR für PHP
Die empfohlene Methode zur Installation von Tesseract OCR für PHP ist die Verwendung von Composer. Bitte verwenden Sie den folgenden Befehl für eine reibungslose Installation.
Tesseract OCR für PHP über Composer installieren
$ composer require thiagoalessio/tesseract_ocr
Installieren Sie Tesseract OCR für PHP über Github
git clone https://github.com/thiagoalessio/tesseract-ocr-for-php.git
Sie können die kompilierte gemeinsam genutzte Bibliothek vom Github-Repository herunterladen.
Text aus Bildern in PHP-Apps extrahieren
Die Open-Source-Bibliothek Tesseract OCR für PHP bietet einige nützliche Funktionen zum Extrahieren von Text aus Bildern mithilfe von PHP-Befehlen. Die Bibliothek bietet verschiedene Seitensegmentierungsmodi zur Handhabung verschiedener Layouts und Textanordnungen. Starten Sie den Extraktionsprozess, indem Sie das Bild oder Dokument laden, das den zu extrahierenden Text enthält. Verwenden Sie den Tesseract PHP-Wrapper, um das vorverarbeitete Bild an die Tesseract OCR-Engine zu übergeben. Der Wrapper bietet Funktionen zum Ausführen von OCR und Abrufen des erkannten Textes als Ergebnis. Das folgende Beispiel zeigt einen grundlegenden Prozess zum Laden eines Bildes und Extrahieren von Text daraus mithilfe von PHP-Befehlen.
Wie lade ich ein Bild und extrahiere Text mit PHP-Code?
use TesseractOCR\TesseractOCR;
$imagePath = '/path/to/your/image.jpg';
$tesseract = new TesseractOCR($imagePath);
$tesseract->setLanguage('eng'); // Set the desired language for text recognition
$text = $tesseract->run();
echo $text;
Verarbeitung von OCR-Ausgaben in PHP-Apps
Die Open-Source-Bibliothek Tesseract OCR für PHP enthält sehr nützliche Funktionen zum Speichern und Arbeiten mit OCR-Ausgabetexten in PHP-Anwendungen. Sie ermöglicht das Speichern des Ausgabetexts in einigen gängigen Formaten wie PDF, TXT, HTML, Word und vielen mehr. Sie ermöglicht die Verarbeitung des erkannten Textes, der aus dem Bild extrahiert wurde. Je nach den Anforderungen Ihrer Anwendung müssen Sie den extrahierten Text möglicherweise weiter verarbeiten oder analysieren. Zu den üblichen Aufgaben gehören Datenvalidierung, Textbereinigung, Rechtschreibprüfung, Formatierung, Integration mit anderen Systemen für erweiterte Verarbeitung oder sprachspezifische Änderungen. Softwareentwickler können problemlos große Mengen von Textdaten analysieren, die aus Dokumenten, Social-Media-Feeds oder Kundenfeedback extrahiert wurden, um Erkenntnisse, Stimmungsanalysen oder Themenmodellierung abzuleiten.
Bilddaten abrufen, skalieren und im PDF-Format über die PHP-API speichern
//Using Imagick
$data = $img->getImageBlob();
$size = $img->getImageLength();
//Using GD
ob_start();
// Note that you can use any format supported by tesseract
imagepng($img, null, 0);
$size = ob_get_length();
$data = ob_get_clean();
$ocr = new TesseractOCR();
$ocr->imageData($data, $size);
$ocr->run();
// Save the Output to PDF file
echo (new TesseractOCR('img.png'))
->configFile('pdf')
->setOutputFile('/PATH_TO_MY_OUTPUTFILE/searchable.pdf')
->run();