Open-Source-JavaScript-API zum Hinzufügen und Verwalten von OCR zu Web-Apps

Eine führende kostenlose JavaScript-Bibliothek zum kostenlosen Hinzufügen von OCR-Funktionen (Optical Character Recognition) zu JS-Web-Apps und zur kostenlosen Umwandlung von Bildern gedruckten oder handgeschriebenen Textes in maschinenlesbaren Text.

Tesseract.js ist eine sehr nützliche Open-Source-JavaScript-Bibliothek, die es Softwareentwicklern ermöglicht, OCR-Funktionen (Optical Character Recognition) mit minimalem Aufwand und Kosten in ihre Webanwendungen zu integrieren. Bei der OCR werden Bilder von gedrucktem oder handgeschriebenem Text in maschinenlesbaren Text umgewandelt. Tesseract.js ist eine Portierung der beliebten Tesseract OCR-Engine, die ursprünglich in den 1980er Jahren von Hewlett-Packard entwickelt und später von Google gepflegt wurde. Tesseract.js kann über 100 Sprachen erkennen und ist damit ein leistungsstarkes Tool für Entwickler, die ihren Webanwendungen OCR-Funktionalität hinzufügen möchten.

Tesseract.js ist sehr einfach zu handhaben und kann für eine Vielzahl von Aufgaben verwendet werden, z. B. zum Extrahieren von Text aus gescannten Dokumenten, Quittungen und Visitenkarten, zur Automatisierung von Dateneingabeaufgaben sowie zur Verbesserung der Suchfunktionalität in Webanwendungen. Einer der Hauptvorteile von Tesseract.js ist seine Fähigkeit, Text zu erkennen, selbst wenn das Eingabebild von schlechter Qualität oder Auflösung ist. Die Bibliothek nutzt Algorithmen des maschinellen Lernens, um die Genauigkeit der OCR-Ergebnisse zu verbessern. Es kann auch eine Seitenlayoutanalyse durchführen und interessante Bereiche innerhalb eines Bildes erkennen.

Tesseract.js erfreut sich aufgrund seiner Benutzerfreundlichkeit sowie leistungsstarken OCR-Funktionen immer größerer Beliebtheit und kann problemlos entweder in einem Browser oder auf einem Server mit NodeJS ausgeführt werden. Es bietet eine einfache API, die es Softwareentwicklern ermöglicht, OCR-Optionen wie Sprache, Seitensegmentierungsmodus und Whitelist-Zeichen zu konfigurieren. Seine Fähigkeit, Text aus Bildern von schlechter Qualität zu erkennen und die Unterstützung mehrerer Sprachen machen es zu einem wertvollen Werkzeug für eine Vielzahl von Anwendungen und zu einer ausgezeichneten Wahl für Entwickler, die OCR zu ihren Webanwendungen hinzufügen möchten.

Auf einen Blick

Eine Übersicht über die Funktionen von Tesseract.js.

Funktionsübersicht

OCR durchführen
OCR-Funktionen hinzufügen
Bildtext erkennen
Convet-Textbilder
Erkannter Schriftarttext
PDF durchsuchen
Über 100 Sprachen
OCR-Apps erstellen
Im Browser speichern
Text extrahieren
Multithreading-Unterstützung

Tesseract.js

Tesseract.js unterstützt die unten aufgeführten gängigen Bilddateiformate.

Leser

PNG, JPEG, BMP, TIFF, TGA, DICOM

Schriftsteller

PNG, JPEG, BMP, TIFF

Tesseract.js

Plattformunabhängigkeit

Tesseract.js kann mit jeder Java-basierten Programmiersprache arbeiten

Java

Tesseract.js

Erste Schritte mit Tesseract.js

Die empfohlene Methode zur Installation von Tesseract.js ist die Verwendung von npm. Für eine reibungslose Installation verwenden Sie bitte den folgenden Befehl

Installieren Sie Tesseract.jsvia npm

 npm install tesseract.js

Sie können es auch manuell installieren; Laden Sie die neuesten Versionsdateien direkt aus dem GitHub-Repository herunter.

Bild über JavaScript-API in Text konvertieren

Die Open-Source-JavaScript-Bibliothek Tesseract.js erleichtert Softwareentwicklern die Arbeit mit verschiedenen Bildtypen wie BMP, JPG, PNG, PBM, WebP und vielen mehr. Die Bibliothek unterstützt das Extrahieren von Text aus Bildern, um die Verarbeitung von Texten auf Bildern, PDFs und gescannten Dokumenten zu automatisieren. Das folgende Beispiel zeigt, wie man mit nur wenigen Codezeilen ein Bild lädt und daraus Text extrahiert. Das Sprachargument wird verwendet, um die trainierten Sprachdaten zu bestimmen, die bei der Verarbeitung von Bildern verwendet werden sollen. Softwareentwickler können hier mehrere Sprachen verwenden.

Wie konvertiere ich ein Bild mit der JavaScript-API in Text?

Tesseract.recognize(
  image,language,
  { 
    logger: m => console.log(m) 
  }
)
.catch (err => {
  console.error(err);
})
.then(result => {
 console.log(result);
})
}

Einen Bildbereich lesen und Text über die JS-API extrahieren

Die Open-Source-JavaScript-Bibliothek verfügt über sehr nützliche Funktionen zum Lesen eines bestimmten Bereichs in einem Bild und zum Erfassen seiner Daten in JavaScript-Anwendungen. Die API unterstützt die Erfassung des Bildbereichs und versucht mithilfe der internen leistungsstarken OCR-Engine, Text innerhalb dieses Bereichs zu erkennen. Die folgenden Beispiele zeigen, wie Softwareentwickler eine URL zum Bild bereitstellen können und die API Text im ausgewählten Bereich problemlos erkennen und erkennen kann.

Text in einem ausgewählten Bereich eines Bildes über die JS-API lesen und erkennen

const { createWorker } = require('tesseract.js');

const worker = await createWorker();
const rectangle = { left: 0, top: 0, width: 500, height: 250 };

(async () => {
  await worker.loadLanguage('eng');
  await worker.initialize('eng');
  const { data: { text } } = await worker.recognize('https://tesseract.projectnaptha.com/img/eng_bw.png', { rectangle });
  console.log(text);
  await worker.terminate();
})();