API Node.js gratuite pour ajouter des capacités OCR aux projets JS.

Bibliothèque OCR Node.js open source qui permet aux programmeurs de reconnaître et d'extraire du texte à partir de divers formats de fichiers, y compris les images (JPEG, PNG), les PDF et les documents, gratuitement et en plusieurs langues.

Qu’est‑ce que Node-Tesseract-OCR ?

À l’ère numérique actuelle, extraire du texte d’images et de documents est devenu une tâche cruciale dans de nombreux secteurs, notamment la gestion documentaire, le traitement de données et l’intelligence artificielle. La technologie de reconnaissance optique de caractères (OCR) permet de convertir des documents numérisés, des images et des PDF en formats de texte éditables. Node‑Tesseract‑OCR est une API open source qui intègre la puissance du moteur Tesseract OCR afin d’offrir une méthode fluide et efficace pour réaliser des tâches OCR dans les applications Node.js.

Node‑Tesseract‑OCR est un wrapper Node.js pour le moteur Tesseract OCR, permettant aux développeurs d’utiliser les puissantes fonctionnalités de reconnaissance de texte de Tesseract dans un environnement Node.js. L’API est maintenue sur ce dépôt GitHub et propose une gamme de fonctionnalités adaptées à divers cas d’usage, de l’extraction de texte simple à des traitements documentaires plus complexes. Les développeurs peuvent extraire du texte d’images et de documents dans plusieurs langues, ce qui en fait un outil polyvalent pour de nombreuses applications.

L’API Node‑Tesseract‑OCR offre des capacités avancées de traitement d’image, incluant le filtrage, le redimensionnement et le recadrage, afin d’assurer que le texte extrait soit précis et fiable. Elle prend en charge plus de 100 langues, constituant ainsi une solution polyvalente pour les tâches OCR dans des environnements variés. Les développeurs peuvent extraire du texte d’images, de PDF et de documents, et renvoyer le texte extrait sous différents formats tels que JSON, XML ou texte brut. Conçue pour être légère, flexible et facile d’utilisation, elle constitue un choix idéal pour les développeurs souhaitant ajouter des capacités OCR à leurs projets. Grâce à ses capacités avancées de traitement d’image, son support linguistique et ses mécanismes de gestion des erreurs, elle est parfaitement adaptée aux développeurs désireux d’enrichir leurs applications avec l’OCR.

En un coup d’œil

Un aperçu des fonctionnalités de Node‑Tesseract‑OCR.

Vue d’ensemble des fonctionnalités

Effectuer de l’OCR
Ajouter des capacités OCR
Reconnaître le texte d’image
Convertir des images contenant du texte
Reconnaître le texte de police
Rechercher dans les PDF
Plus de 100 langues
Créer des applications OCR
Enregistrer dans le navigateur
Extraire du texte
Prise en charge du multithreading

Node‑Tesseract‑OCR

Node‑Tesseract‑OCR prend en charge les formats d’image populaires listés ci‑dessous.

Lecteur

PNG, JPEG, BMP, TIFF, TGA, DICOM

Écrivain

PNG, JPEG, BMP, TIFF

Node‑Tesseract‑OCR

Indépendance de la plateforme

Node‑Tesseract‑OCR peut fonctionner avec n’importe quel langage de programmation basé sur Java.

Java

Node‑Tesseract‑OCR

Commencer avec Node‑Tesseract‑OCR

La méthode recommandée pour installer Node‑Tesseract‑OCR est d’utiliser npm. Veuillez exécuter la commande suivante pour une installation fluide

Installer Node‑Tesseract‑OCR via npm

npm install node-tesseract-ocr

Vous pouvez également l’installer manuellement ; téléchargez les derniers fichiers de version directement depuis le dépôt GitHub.

Extraction de texte à partir d’images avec l’API Node.js

La bibliothèque open source Node‑Tesseract‑OCR facilite la création d’applications qui extraient automatiquement du texte d’images au sein d’applications Node.js. Elle prend en charge l’extraction de texte à partir de documents numérisés, de PDF, de photos prises avec une caméra ou de photos de reçus. Cela peut être utile pour créer des archives consultables, automatiser la saisie de données ou traiter de gros volumes de documents dans des secteurs comme la finance et la santé. Voici un exemple simple montrant comment extraire programmétiquement du texte d’images dans des applications Node.js.

Comment extraire du texte d’images dans un environnement Node.js ?

const tesseract = require("node-tesseract-ocr");

tesseract.recognize("path/to/image.jpg")
  .then(text => {
    console.log("Recognized Text:", text);
  })
  .catch(error => {
    console.error("Error:", error.message);
  });

Meilleure pré‑traitement d’image dans Node.js

Le pré‑traitement des images avant d’appliquer l’OCR peut améliorer considérablement la précision de la reconnaissance de texte. La bibliothèque open source Node‑Tesseract‑OCR permet d’appliquer des techniques de pré‑traitement de base, telles que le redimensionnement, la binarisation et la correction d’inclinaison. Ces étapes peuvent être implémentées à l’aide de bibliothèques Node.js supplémentaires comme sharp ou jimp en combinaison avec Node‑Tesseract‑OCR. L’exemple suivant montre comment les développeurs utilisent ces étapes de pré‑traitement pour améliorer la reconnaissance, notamment avec des images de qualité inférieure.

Comment appliquer des étapes de pré‑traitement pour améliorer la reconnaissance via l’API Node.js ?

const sharp = require("sharp");
const tesseract = require("node-tesseract-ocr");

sharp("path/to/input.jpg")
  .resize(800, 600) // Resize the image
  .greyscale() // Convert to greyscale
  .toBuffer()
  .then(data => {
    return tesseract.recognize(data, { lang: "eng" });
  })
  .then(text => {
    console.log("Preprocessed Image Text:", text);
  })
  .catch(error => {
    console.error("Error:", error.message);
  });

Texte reconnu en plusieurs langues

L’une des caractéristiques remarquables de Node‑Tesseract‑OCR est son large support multilingue. La bibliothèque Tesseract OCR prend en charge plus de 100 langues, ce qui en fait un choix idéal pour les applications qui doivent traiter des documents dans diverses langues. Les développeurs peuvent spécifier la ou les langues que Tesseract doit utiliser, améliorant ainsi la précision de la reconnaissance pour les textes non anglais. Voici un exemple montrant comment les développeurs peuvent reconnaître du texte en français dans des applications Node.js ?

Comment reconnaître du texte d’image en français via l’API JavaScript ?

const config = {
  lang: "fra", // French language support
  oem: 1,
  psm: 3
};

tesseract.recognize("path/to/french-text-image.jpg", config)
  .then(text => {
    console.log("Recognized Text in French:", text);
  })
  .catch(error => {
    console.error("Error:", error.message);
  });

API Node.js gratuite pour ajouter des capacités OCR aux projets JS.

Bibliothèque OCR Node.js open source qui permet aux programmeurs de reconnaître et d'extraire du texte à partir de divers formats de fichiers, y compris les images (JPEG, PNG), les PDF et les documents, gratuitement et en plusieurs langues.

Qu’est‑ce que Node-Tesseract-OCR ?

En un coup d’œil

Indépendance de la plateforme

Commencer avec Node‑Tesseract‑OCR

Installer Node‑Tesseract‑OCR via npm

Extraction de texte à partir d’images avec l’API Node.js

Comment extraire du texte d’images dans un environnement Node.js ?

Meilleure pré‑traitement d’image dans Node.js

Comment appliquer des étapes de pré‑traitement pour améliorer la reconnaissance via l’API Node.js ?

Texte reconnu en plusieurs langues

Comment reconnaître du texte d’image en français via l’API JavaScript ?

Qu’est‑ce que Node-Tesseract-OCR ?

Comment extraire du texte d’images dans un environnement Node.js ?

Comment appliquer des étapes de pré‑traitement pour améliorer la reconnaissance via l’API Node.js ?

Comment reconnaître du texte d’image en français via l’API JavaScript ?