Kostenlose JavaScript‑Bibliothek zum Parsen von Text aus gescannten Bildern & Formularen
Open‑Source‑Bibliothek für optische Zeichenerkennung (OCR) in JavaScript zum Parsen von Text aus Schwarz‑Weiß‑gescannten Bildern & Dokumenten mit Bildvorverarbeitung und Vorlagenunterstützung in Web‑ oder Node.js‑Apps.
In der modernen digitalen Welt spielt die Technologie der optischen Zeichenerkennung (OCR) eine entscheidende Rolle bei der Umwandlung gescannter Bilder, handschriftlicher Notizen oder gedruckter Dokumente in editierbare und durchsuchbare Daten. Für JavaScript‑Entwickler, die nach einer leichten und Open‑Source‑Lösung suchen, bietet Guten OCR eine überzeugende Wahl. Diese JavaScript‑basierte OCR‑Engine ist mit Fokus auf Einfachheit konzipiert und eignet sich ideal, OCR‑Funktionen direkt in browserbasierte oder Node.js‑Anwendungen einzubetten. Die Bibliothek enthält mehrere wichtige Funktionen, wie Zeichenerkennung über Vorlagen, Bildschwellwertsetzung und Binarisierung, Zeichensegmentierung, Vorlagenabgleich und Textzusammenstellung, modulare Code‑Basis‑Unterstützung und so weiter. Sie konzentriert sich auf die Erkennung von gedrucktem Text aus Schwarz‑Weiß‑gescannten Dokumenten und ist am besten für gut formatierte Texte geeignet, wie Bücher oder Formulare.
Guten OCR ist eine Open‑Source‑JavaScript‑OCR‑Engine, erstellt von Gutenye. Im Gegensatz zu schweren OCR‑Tools, die externe Abhängigkeiten oder umfangreiche Einrichtung erfordern, ist Guten OCR vollständig in JavaScript geschrieben, sodass es in einem Web‑Browser oder auf dem Server mit Node.js laufen kann. Die Bibliothek verwendet grundlegende Bildverarbeitungstechniken, um Zeichen zu segmentieren und sie mithilfe eines Zeichenerkennungsmusters zu identifizieren. Obwohl sie noch nicht mit kommerziellen OCR‑Engines wie Tesseract in Bezug auf mehrsprachige oder handschriftliche Texterkennung konkurrieren kann, machen ihre Einfachheit und Anpassbarkeit sie zu einer fantastischen Option für Bildungsprojekte, Proof‑of‑Concepts oder eingebettete OCR‑Funktionen in benutzerdefinierten Web‑Apps. Im Gegensatz zu Tesseract oder anderen größeren Engines ist Guten OCR bewusst leichtgewichtig und fokussiert – ein hervorragender Ausgangspunkt für alle, die verstehen wollen, wie OCR im Detail funktioniert.
Erste Schritte mit Guten OCR
Die empfohlene Methode, Guten OCR zu installieren, ist die Verwendung von Brew. Bitte benutzen Sie den folgenden Befehl für eine reibungslose Installation
Guten OCR über Brew installieren
brew install git-lfs Guten OCR über GitHub installieren
git clone git@github.com:gutenye/ocr.git Sie können es auch manuell installieren; laden Sie die neuesten Release‑Dateien direkt aus dem GitHub Repository herunter.
Bildvorverarbeitung vor OCR‑Operationen
Die Open‑Source‑Bibliothek Guten OCR ist vollständig in JavaScript geschrieben, wodurch sie sowohl mit Browser‑ als auch mit Node.js‑Umgebungen kompatibel ist. Sie enthält integrierte Bildvorverarbeitungsfunktionen zur Verbesserung der Erkennungsgenauigkeit. Sie unterstützt Bildbinarisierung (Umwandlung in Schwarz‑Weiß), Rauschunterdrückung, Schräglagenkorrektur und mehr. Das folgende Beispiel zeigt, wie Entwickler mehrere Bildvorverarbeitungsschritte anwenden können, bevor sie eine OCR‑Operation auf Bildern durchführen.
Wie wendet man Bildvorverarbeitung vor einer OCR‑Operation mit der JavaScript‑Bibliothek an?
const { preprocess } = require('guten-ocr');
// Apply multiple preprocessing steps
const processedImage = preprocess(imageData, [
'grayscale', // Convert to grayscale
'binarize', // Convert to black and white
'deskew', // Correct skew
'denoise' // Reduce noise
]);
// Then perform OCR on the processed image
ocr.recognize(processedImage).then(/* ... */);
Zeichenerkennung über Vorlagen
Die JavaScript‑Bibliothek Guten OCR bietet vollständige Unterstützung für OCR‑Operationen mithilfe von Vorlagen in JavaScript‑Anwendungen. Im Kern von Guten OCR steht ein Vorlagen‑Abgleichssystem. Anstatt ein Machine‑Learning‑Modell zu trainieren, verwendet es vordefinierte Zeichenmuster. Das macht das System schneller und leichter verständlich, ist jedoch empfindlicher gegenüber Schrift‑ und Layout‑Konsistenz. Für diese Aufgabe rendert die Bibliothek jedes Zeichen (A–Z, a–z, 0–9 usw.) in einem Canvas und erzeugt daraus eine binäre Matrix, die als Referenzvorlage dient. Beim Analysieren eines Bildes vergleicht die Bibliothek Bildsegmente mit diesen Vorlagen, um die beste Übereinstimmung zu finden. Dies geschieht mittels einer Kombination aus vertikalem und horizontalem Zeilenscannen, um Begrenzungsrahmen zu lokalisieren.
Zeichensegmentierung mit OCR‑Bibliothek
Die Open‑Source‑JavaScript‑Bibliothek Guten OCR ermöglicht Software‑Entwicklern die einfache Durchführung von Zeichensegmentierung. Sobald das Bild binarisiert ist, besteht der nächste Schritt darin, einzelne Zeichen zu segmentieren. Guten OCR scannt Zeilen und Spalten, um Bereiche mit dichten schwarzen Pixeln zu erkennen und sie in potenzielle Zeichen zu trennen. Das folgende Beispiel demonstriert, wie Software‑Entwickler die Zeichensegmentierung mit der JavaScript‑OCR‑Bibliothek durchführen können.
Wie führt man Zeichensegmentierung mit der JavaScript‑Bibliothek durch?
const segment = require('guten-ocr/segment');
const boxes = segment(binarized); // returns array of [x, y, width, height]