1. Produkte
  2.   OCR
  3.   PHP
  4.   Tesseract OCR for PHP
 
  

Open-Source-PHP-Bibliothek für OCR-Operationen an Bildern

Kostenlose PHP-API zur optischen Zeichenerkennung zur Durchführung von OCR-Vorgängen an Bildern, gescannten Dokumenten und PDFs mithilfe der Tesseract-PHP-Bibliothek.

Unter den zahlreichen verfügbaren OCR-Tools sticht Tesseract OCR als eine der leistungsstärksten und vielseitigsten APIs hervor, die es Softwareentwicklern ermöglicht, Anwendungen zum Erkennen und Extrahieren von Text aus verschiedenen beliebten visuellen Quellen zu erstellen. Tesseract OCR für PHP ist ein sehr nützlicher Wrapper für die Arbeit mit Tesseract OCR in PHP-Anwendungen. Die Open-Source-Bibliothek Tesseract OCR für PHP kann die OCR-Genauigkeit durch Vorverarbeitung des Bildes verbessern. Techniken wie Größenänderung, Binärisierung, Rauschentfernung und Entzerrung können angewendet werden, um die Sichtbarkeit des Textes zu verbessern und alle Artefakte zu entfernen, die die Erkennung behindern könnten.

Die Tesseract OCR für PHP-Bibliothek bietet mehrere erweiterte Funktionen und Anpassungsoptionen zur Verbesserung der OCR-Ergebnisse in PHP-Anwendungen, z. B. die Handhabung mehrsprachiger Dokumente, die Angabe der gewünschten Sprache(n) während der OCR-Initialisierung, um die Genauigkeit für bestimmte Sprachen zu verbessern, Unterstützung für Seitensegmentierungsmodi, Verbesserung der Erkennungsgenauigkeit für spezielle Anwendungen, Schulungsunterstützung für benutzerdefinierte Schriftarten oder Symbole oder bestimmte Textmuster, Verbesserung der Barrierefreiheit, Digitalisierung von Dokumenten, Textanalyse, Datenextraktion und vieles mehr.

Verwenden Sie den Tesseract PHP-Wrapper, um das vorverarbeitete Bild an die Tesseract OCR-Engine zu übergeben. Der Wrapper bietet Funktionen zum Ausführen von OCR und zum Abrufen des erkannten Textes als Ergebnis. Der extrahierte Text erfordert möglicherweise zusätzliche Nachbearbeitungsschritte wie Rechtschreibprüfung, Formatierung oder sprachspezifische Änderungen. Für diese Zwecke können PHP-Bibliotheken wie Symfony/string oder Text_LanguageDetect eingesetzt werden. Durch die Integration von Tesseract OCR in Ihre PHP-Projekte können Softwareentwickler die Dokumentenverarbeitung optimieren, die Datenextraktion automatisieren und ein neues Maß an Effizienz und Zugänglichkeit für ihre Anwendungen erreichen.

Previous Next

Erste Schritte mit Tesseract OCR für PHP

Die empfohlene Methode zur Installation von Tesseract OCR für PHP ist die Verwendung von Composer. Für eine reibungslose Installation verwenden Sie bitte den folgenden Befehl.

Installieren Sie Tesseract OCR für PHP über Composer

$ composer require thiagoalessio/tesseract_ocr 

Installieren Sie Tesseract OCR für PHP über Github

git clone https://github.com/thiagoalessio/tesseract-ocr-for-php.git 

Sie können die kompilierte gemeinsam genutzte Bibliothek aus dem Github-Repository herunterladen.

Text aus Bild in PHP-Apps extrahieren

Die Open-Source-Bibliothek Tesseract OCR für PHP bietet einige nützliche Funktionen zum Extrahieren von Text aus Bildern mithilfe von PHP-Befehlen. Die Bibliothek bietet verschiedene Seitensegmentierungsmodi für verschiedene Layouts und Textanordnungen. Starten Sie den Extraktionsprozess, indem Sie das Bild oder Dokument laden, das den Text enthält, den Sie extrahieren möchten. Verwenden Sie den Tesseract PHP-Wrapper, um das vorverarbeitete Bild an die Tesseract OCR-Engine zu übergeben. Der Wrapper bietet Funktionen zum Ausführen von OCR und zum Abrufen des erkannten Textes als Ergebnis. Das folgende Beispiel zeigt einen grundlegenden Prozess zum Laden eines Bildes und Extrahieren von Text daraus mithilfe von PHP-Befehlen.

Wie lade ich Bilder und extrahiere Text mit PHP-Code?

use TesseractOCR\TesseractOCR;

$imagePath = '/path/to/your/image.jpg';

$tesseract = new TesseractOCR($imagePath);
$tesseract->setLanguage('eng'); // Set the desired language for text recognition

$text = $tesseract->run();
echo $text;

Verarbeitung der OCR-Ausgabe in PHP-Apps

Die Open-Source-Bibliothek Tesseract OCR für PHP enthält sehr nützliche Funktionen zum Speichern und Arbeiten mit OCR-Ausgabetext in PHP-Anwendungen. Es ermöglicht das Speichern des ausgegebenen Textes in einigen gängigen Formaten wie PDF, TXT, HTML, Word und vielen mehr. Es ermöglicht die Verarbeitung des erkannten Texts, der aus dem Bild extrahiert wurde. Abhängig von den Anforderungen Ihrer Anwendung müssen Sie den extrahierten Text möglicherweise weiter verarbeiten oder analysieren. Zu den üblichen Aufgaben gehören Datenvalidierung, Textbereinigung, Rechtschreibprüfung, Formatierung, Integration mit anderen Systemen für erweiterte Verarbeitung oder sprachspezifische Änderungen. Softwareentwickler können problemlos große Mengen an Textdaten analysieren, die aus Dokumenten, Social-Media-Feeds oder Kundenfeedback extrahiert wurden, um daraus Erkenntnisse, Stimmungsanalysen oder Themenmodellierungen abzuleiten.

Bilddaten abrufen, skalieren und im PDF-Format über die PHP-API speichern

//Using Imagick
$data = $img->getImageBlob();
$size = $img->getImageLength();
//Using GD
ob_start();
// Note that you can use any format supported by tesseract
imagepng($img, null, 0);
$size = ob_get_length();
$data = ob_get_clean();

$ocr = new TesseractOCR();
$ocr->imageData($data, $size);
$ocr->run();


// Save the Output to PDF file

echo (new TesseractOCR('img.png'))
    ->configFile('pdf')
    ->setOutputFile('/PATH_TO_MY_OUTPUTFILE/searchable.pdf')
    ->run();

 Deutsch