Bibliothèque JavaScript gratuite pour analyser le texte à partir d'images et de formulaires numérisés

Bibliothèque JavaScript open source de reconnaissance optique de caractères (OCR) pour analyser le texte à partir d'images et de documents numérisés en noir et blanc avec prise en charge du prétraitement d'images et des modèles dans les applications Web ou Node.js.

Dans le monde numérique moderne, la technologie de reconnaissance optique de caractères (OCR) joue un rôle crucial dans la transformation des images numérisées, des notes manuscrites ou des documents imprimés en données éditables et recherchables. Pour les développeurs JavaScript à la recherche d’une solution légère et open‑source, Guten OCR offre un choix convaincant. Ce moteur OCR basé sur JavaScript est conçu avec la simplicité à l’esprit, ce qui le rend idéal pour intégrer des fonctionnalités OCR directement dans des applications côté navigateur ou Node.js. Plusieurs fonctionnalités importantes font partie de la bibliothèque, telles que la reconnaissance de caractères via des modèles, le seuillage et la binarisation d’image, la segmentation de caractères, la correspondance de modèles et l’assemblage de texte, le support d’une base de code modulaire, etc. Elle se concentre sur la reconnaissance de texte imprimé à partir de documents numérisés en noir et blanc et convient le mieux aux textes bien formatés, comme les livres ou les formulaires.

Guten OCR est un moteur OCR JavaScript open source créé par Gutenye. Contrairement aux outils OCR lourds qui nécessitent des dépendances externes ou une configuration étendue, Guten OCR est entièrement écrit en JavaScript, ce qui signifie qu’il peut s’exécuter dans un navigateur web ou sur un serveur avec Node.js. La bibliothèque utilise des techniques de traitement d’image de base pour segmenter les caractères et les identifier à l’aide d’un système de reconnaissance de motifs de caractères. Bien qu’elle ne rivalise pas encore avec les moteurs OCR commerciaux comme Tesseract en termes de prise en charge multilingue ou du texte manuscrit, sa simplicité et sa hackabilité en font une option fantastique pour les projets éducatifs, les preuves de concept ou les fonctionnalités OCR intégrées dans des applications web personnalisées. Contrairement à Tesseract ou à d’autres moteurs plus volumineux, Guten OCR est intentionnellement légère et ciblée — ce qui en fait un excellent point de départ pour ceux qui souhaitent comprendre le fonctionnement de l’OCR en profondeur.

En un coup d'œil

Un aperçu des fonctionnalités de Guten OCR.

Features Overview

Analyser le texte des images
Appliquer l'OCR sur les images
Reconnaître le texte d'image
Convertir les images de texte
Texte de police reconnu
Prétraitement d'image
Utiliser des modèles pour l'OCR
Créer des applications OCR
Enregistrer dans le navigateur
Extraire le texte
Support du multithreading

Guten OCR

Guten OCR prend en charge les formats d'image populaires répertoriés ci-dessous.

Lecteur

PNG, JPEG, BMP, TIFF, TGA, DICOM

Écrivain

PNG, JPEG, BMP, TIFF

Guten OCR

Indépendance de la plateforme

Guten OCR peut fonctionner avec n'importe quel langage de programmation basé sur Java

Environnement d'exécution Java

Guten OCR

Commencer avec Guten OCR

La méthode recommandée pour installer Guten OCR est d'utiliser Brew. Veuillez utiliser la commande suivante pour une installation fluide

Installer Guten OCR via Brew

 brew install git-lfs

Installer Guten OCR via GitHub

 git clone git@github.com:gutenye/ocr.git

Vous pouvez également l'installer manuellement ; téléchargez les derniers fichiers de version directement depuis le dépôt GitHub repository.

Prétraitement d'image avant les opérations OCR

La bibliothèque open source Guten OCR est entièrement écrite en JavaScript, ce qui la rend compatible à la fois avec les environnements navigateur et Node.js. Elle inclut des fonctions de prétraitement d'image intégrées pour améliorer la précision de la reconnaissance. Elle prend en charge la binarisation d'image (conversion en noir et blanc), la réduction du bruit, la correction de l'inclinaison et plus encore. L'exemple suivant montre comment les développeurs peuvent appliquer plusieurs étapes de prétraitement d'image avant d'effectuer une opération OCR sur les images.

Comment appliquer le prétraitement d'image avant l'opération OCR via la bibliothèque JavaScript ?

const { preprocess } = require('guten-ocr');

// Apply multiple preprocessing steps
const processedImage = preprocess(imageData, [
  'grayscale',    // Convert to grayscale
  'binarize',     // Convert to black and white
  'deskew',       // Correct skew
  'denoise'       // Reduce noise
]);

// Then perform OCR on the processed image
ocr.recognize(processedImage).then(/* ... */);

Reconnaissance de caractères via des modèles

La bibliothèque JavaScript Guten OCR offre un support complet pour effectuer des opérations OCR en utilisant des modèles à l'intérieur des applications JavaScript. Au cœur de Guten OCR se trouve un système de correspondance de modèles. Au lieu d'entraîner un modèle d'apprentissage automatique, il utilise des motifs de caractères prédéfinis. Cela rend le système plus rapide et plus facile à comprendre, mais plus sensible à la cohérence des polices et de la mise en page. Pour réaliser cette tâche, la bibliothèque rend chaque caractère (A–Z, a–z, 0–9, etc.) dans un canvas, puis la matrice binaire de chaque caractère devient un modèle de référence. Lors de l'analyse d'une image, la bibliothèque compare les segments d'image à ces modèles pour trouver la meilleure correspondance. Elle le fait en utilisant une combinaison de balayage de lignes verticales et horizontales pour localiser les boîtes englobantes.

Segmentation de caractères via la bibliothèque OCR

La bibliothèque JavaScript open source Guten OCR permet aux développeurs de réaliser facilement la segmentation de caractères. Une fois l'image binarisée, l'étape suivante consiste à segmenter les caractères individuels. Guten OCR analyse les lignes et les colonnes pour détecter les régions contenant de nombreux pixels noirs, les séparant en caractères potentiels. L'exemple suivant montre comment les développeurs peuvent réaliser la segmentation de caractères en utilisant la bibliothèque OCR JavaScript.

Comment effectuer la segmentation de caractères en utilisant la bibliothèque JavaScript ?

const segment = require('guten-ocr/segment');
const boxes = segment(binarized); // returns array of [x, y, width, height]