PHP-Bibliothek zum Extrahieren von Bildtext in mehreren Sprachen

Open-Source-PHP-Optical-Character-Recognition-API ermöglicht das Laden & Scannen von Bildern oder Dokumenten, das Erkennen & Extrahieren von Text aus Bildern in mehreren Sprachen innerhalb von PHP-Anwendungen.

Optische Zeichenerkennung (OCR) ist heute ein unverzichtbares Werkzeug zum Extrahieren von Text aus Bildern und Dokumenten. Mit dem Aufkommen der digitalen Transformation ist der Bedarf an effizienten und genauen OCR-Lösungen noch nie so groß gewesen. OcrPHP ist eine sehr leistungsfähige Open-Source-OCR-Bibliothek, die Softwareentwicklern ermöglicht, robuste und skalierbare OCR-Anwendungen zu erstellen. Es handelt sich um eine PHP-basierte OCR-Bibliothek, die die Tesseract-OCR-Engine nutzt, eine weit verbreitete und hoch angesehene OCR-Technologie, die von Google entwickelt wurde. Die Bibliothek bietet zahlreiche Funktionen, wie Dokumentenscanning, Textextraktion aus Bildern, Textextraktion in einer bestimmten Sprache, Extraktion von Text aus PDFs und vieles mehr.

Die OcrPHP-Bibliothek enthält fortschrittliche Bildvorverarbeitungstechniken wie Entzerrung, Rauschunterdrückung und Binarisierung, um die OCR-Genauigkeit zu verbessern. Sie unterstützt die Durchführung von OCR in mehreren Sprachen, darunter Englisch, Spanisch, Französisch, Deutsch, Italienisch, Portugiesisch, Chinesisch, Japanisch und viele weitere. Softwareentwickler können den OCR-Prozess anpassen, indem sie Parameter wie Sprache, Seitensegmentierungsmodus und OCR-Engine-Einstellungen ändern. Sie verfügt über robuste Fehlerbehandlungsmechanismen, um sicherzustellen, dass OCR‑Operationen reibungslos und effizient ausgeführt werden. Mit Funktionen wie Mehrsprachunterstützung, fortschrittlichem Bildscanning, benutzerdefinierten Konfigurationen und einfacher Integration ermöglicht sie Entwicklern, vielseitige Texterkennungswerkzeuge mit geringem Aufwand und niedrigen Kosten zu erstellen.

Auf einen Blick

Ein Überblick über die OcrPHP-Funktionen.

Features Overview

OCR ausführen
OCR-Funktionen hinzufügen
Text in vielen Sprachen erkennen
Bilder mit Text konvertieren
Erkannten Schriftart-Text
PDF durchsuchen
Weitere Sprachen
OCR-Anwendungen erstellen
Im Browser speichern
Text extrahieren
Mehrthread-Unterstützung

OcrPHP

OcrPHP unterstützt die unten aufgeführten gängigen Komprimierungsdateiformate.

Leser

PNG, JPEG, BMP, TIFF, TGA, DICOM

Schreiber

PNG, JPEG, BMP, TIFF

OcrPHP

Plattformunabhängigkeit

OcrPHP benötigt nur die PHP-Laufzeit.

PHP 5.1 und höher.

OcrPHP

Erste Schritte mit OcrPHP

Die empfohlene Methode, OcrPHP zu installieren, ist die Verwendung von Composer. Bitte verwenden Sie den folgenden Befehl für eine reibungslose Installation.

OcrPHP via Composer installieren

composer require fizzday/ocrphp

OcrPHP via Github installieren

git clone https://github.com/fizzday/OcrPHP.git

Sie können die kompilierte Shared Library aus dem Github Repository herunterladen.

Texterkennung und -extraktion aus einem Bild mit PHP

Die Open-Source-Bibliothek OcrPHP ermöglicht es Software, verschiedene Bildtypen zu laden und Text aus diesen Bildern mit nur wenigen Zeilen PHP-Code zu extrahieren. Hier ist ein sehr einfaches Beispiel, das die Imagick-Bibliothek verwendet, um eine Bilddatei zu laden und eine Instanz der OcrPHP-Klasse zu erstellen. Entwickler können anschließend die Sprache und die OCR-Engine-Einstellungen festlegen, bevor sie OCR auf das Bild mit der Methode recognize() anwenden. Schließlich gibt es den extrahierten Text mit der Methode getText() aus.

Wie extrahiere ich Text aus einem Bild mit der PHP-Bibliothek?

require_once 'OcrPHP/autoload.php';

// Load the image file
$image = new Imagick('path/to/image.jpg');

// Create an instance of the OcrPHP class
$ocr = new OcrPHP();

// Set the language and OCR engine settings
$ocr->setLanguage('eng');
$ocr->setPageSegmentationMode(OcrPHP::PSM_SINGLE_BLOCK);

// Perform OCR on the image
$result = $ocr->recognize($image);

// Print the extracted text
echo $result->getText();

Texterkennung in einer bestimmten Sprache mit PHP

Die OcrPHP-Bibliothek bietet Unterstützung für mehrere Sprachen, um OCR-Operationen in PHP-Anwendungen durchzuführen. Egal, ob Ihr Text in Englisch, Chinesisch oder einer anderen unterstützten Sprache vorliegt, OcrPHP kann ihn nahtlos verarbeiten. Um Text in einer bestimmten Sprache zu extrahieren, übergeben Sie den Sprachcode als Parameter. Stellen Sie sicher, dass das entsprechende Tesseract-Sprachmodell installiert ist. Das folgende Beispiel zeigt, wie Entwickler Text aus Bildern in chinesischer Sprache innerhalb von PHP-Anwendungen extrahieren können.

Wie extrahiere ich Text aus einem Bild in chinesischer Sprache mit PHP?

require 'vendor/autoload.php';

use Fizzday\Ocr\Ocr;

$imagePath = __DIR__ . '/example-image-chinese.png';

$ocr = new Ocr();

// Extract text in Chinese
$text = $ocr->scan($imagePath, 'chi_sim'); // Use 'eng' for English

echo "Extracted Text (Chinese): \n" . $text;

Batch-Verarbeitung und OCR-Automatisierung mit PHP

Für Softwareentwickler, die Dokumentenverarbeitungsanwendungen erstellen, kann die Batch-Verarbeitung ein wertvolles Feature sein. Die Open-Source-Bibliothek OcrPHP erleichtert es Entwicklern, ein Verzeichnis mit Bilddateien zu durchlaufen und den Text aus jeder Datei automatisch zu extrahieren. Das ist ideal, um Aufgaben wie das Scannen von Rechnungen, Belegen oder Büchern zu automatisieren. Hier ist ein sehr nützliches Beispiel, das alle .png‑Dateien im angegebenen Verzeichnis scannt, den Text aus jeder extrahiert und ausgibt. Sie können dies erweitern, um die Ausgabe in einer Datei oder Datenbank zu speichern, wodurch es ein leistungsstarkes Werkzeug für die Dokumentenverarbeitung wird.

Wie extrahiere ich Text aus mehreren Bildern mit der PHP-Bibliothek?

require 'vendor/autoload.php';

use Fizzday\Ocr\Ocr;

$directory = __DIR__ . '/images/';
$ocr = new Ocr();

foreach (glob($directory . '*.png') as $imagePath) {
    $text = $ocr->scan($imagePath);
    echo "Text from {$imagePath}: \n" . $text . "\n\n";
}

Benutzerdefinierte Konfiguration & Integrationsunterstützung

Die Open-Source-Bibliothek OcrPHP ist eine vielseitige und entwicklerfreundliche Bibliothek, die die Integration von OCR-Funktionen in PHP-Projekte vereinfacht. Die Bibliothek ermöglicht es, benutzerdefinierte Tesseract-Konfigurationen festzulegen, wie Sprache, Seitensegmentierungsmodus und Bildvorverarbeitungsparameter, und bietet so Flexibilität, um OCR-Ergebnisse anzupassen.