Gratis Node.js API om OCR-mogelijkheden toe te voegen aan JS-projecten.

Open Source Node.js OCR-bibliotheek die programmeurs in staat stelt tekst te herkennen en te extraheren uit verschillende bestandsformaten, inclusief afbeeldingen (JPEG, PNG), PDF's en documenten, gratis in meerdere talen.

Wat is Node-Tesseract-OCR?

In het digitale tijdperk van vandaag is het extraheren van tekst uit afbeeldingen en documenten een cruciale taak geworden in diverse sectoren, waaronder documentbeheer, gegevensverwerking en kunstmatige intelligentie. Optical Character Recognition (OCR)-technologie maakt het mogelijk om gescande documenten, afbeeldingen en PDF's om te zetten naar bewerkbare tekstformaten. Node-Tesseract-OCR is een open-source API die de kracht van de Tesseract OCR-engine benut om een naadloze en efficiënte manier te bieden om OCR-taken uit te voeren in Node.js-toepassingen.

Node-Tesseract-OCR is een Node.js wrapper voor de Tesseract OCR-engine, waardoor softwareontwikkelaars de krachtige teksterkenningsfuncties van Tesseract kunnen gebruiken binnen een Node.js‑omgeving. De API wordt onderhouden in deze GitHub‑repository en biedt een reeks functionaliteiten die het geschikt maken voor diverse use‑cases, van eenvoudige tekstextractie tot meer complexe documentverwerkingstaken. Softwareontwikkelaars kunnen tekst uit afbeeldingen en documenten in meerdere talen extraheren, waardoor het een veelzijdig hulpmiddel is voor verschillende toepassingen.

De Node-Tesseract-OCR API biedt geavanceerde beeldverwerkingsmogelijkheden, waaronder beeldfiltering, resizing en cropping, om ervoor te zorgen dat de geëxtraheerde tekst nauwkeurig en betrouwbaar is. Het ondersteunt meer dan 100 talen, waardoor het een veelzijdige oplossing is voor OCR‑taken in uiteenlopende omgevingen. Softwareontwikkelaars kunnen tekst uit afbeeldingen, PDF's en documenten extraheren en de geëxtraheerde tekst teruggeven in verschillende formaten, zoals JSON, XML en platte tekst. De API is ontworpen om lichtgewicht, flexibel en eenvoudig in gebruik te zijn, waardoor het een ideale keuze is voor ontwikkelaars die OCR-mogelijkheden aan hun projecten willen toevoegen. Met de geavanceerde beeldverwerkingsfuncties, taalondersteuning en foutafhandelingsmechanismen is het een uitstekende keuze voor ontwikkelaars die OCR-mogelijkheden willen integreren.

In één oogopslag

Een overzicht van de Node-Tesseract-OCR-functies.

Features Overview

OCR uitvoeren
OCR-mogelijkheden toevoegen
Afbeeldingstekst herkennen
Afbeeldingen met tekst converteren
Herkende lettertype-tekst
PDF doorzoeken
Meer dan 100 talen
OCR-apps maken
Opslaan in browser
Tekst extraheren
Ondersteuning voor multithreading

Node-Tesseract-OCR

Node-Tesseract-OCR ondersteunt populaire afbeeldingsbestandsformaten zoals hieronder vermeld.

Lezer

PNG, JPEG, BMP, TIFF, TGA, DICOM

Schrijver

PNG, JPEG, BMP, TIFF

Node-Tesseract-OCR

Platformonafhankelijkheid

Node-Tesseract-OCR kan werken met elke op Java gebaseerde programmeertaal

Java

Node-Tesseract-OCR

Aan de slag met Node-Tesseract-OCR

De aanbevolen manier om Node-Tesseract-OCR te installeren is via npm. Gebruik de volgende opdracht voor een soepele installatie

Node-Tesseract-OCR installeren via npm

npm install node-tesseract-ocr

U kunt het ook handmatig installeren; download de nieuwste releasebestanden rechtstreeks van de GitHub repository.

Tekstextractie uit afbeeldingen in Node.js API

De open source Node-Tesseract-OCR‑bibliotheek maakt het eenvoudig voor softwareontwikkelaars om applicaties te bouwen die automatisch tekst uit afbeeldingen extraheren binnen Node.js‑applicaties. Het ondersteunt tekstextractie uit gescande documenten, PDF's, camerafoto's of bonfoto's. Dit kan nuttig zijn voor het creëren van doorzoekbare archieven, het automatiseren van gegevensinvoer, of het verwerken van grote hoeveelheden documenten in sectoren zoals financiën en gezondheidszorg. Hieronder staat een eenvoudig voorbeeld dat laat zien hoe je programmatisch tekst uit afbeeldingen kunt extraheren binnen Node.js‑applicaties.

Hoe tekst uit afbeeldingen extraheren in een Node.js‑omgeving?

const tesseract = require("node-tesseract-ocr");

tesseract.recognize("path/to/image.jpg")
  .then(text => {
    console.log("Recognized Text:", text);
  })
  .catch(error => {
    console.error("Error:", error.message);
  });

Betere beeldvoorbewerking in Node.js

Voorbewerking van afbeeldingen vóór OCR kan de nauwkeurigheid van teksterkenning aanzienlijk verbeteren. De open source Node-Tesseract-OCR‑bibliotheek maakt basisvoorbewerkings‑technieken mogelijk, zoals resizing, binarisatie en deskewing. Deze stappen kunnen worden geïmplementeerd met extra Node.js‑bibliotheken zoals sharp of jimp in combinatie met Node-Tesseract-OCR. Het volgende voorbeeld laat zien hoe softwareontwikkelaars voorbewerkingsstappen gebruiken om herkenning te verbeteren, vooral bij afbeeldingen van lagere kwaliteit.

Hoe voorbewerkingsstappen toepassen om herkenning te verbeteren via Node.js API?

const sharp = require("sharp");
const tesseract = require("node-tesseract-ocr");

sharp("path/to/input.jpg")
  .resize(800, 600) // Resize the image
  .greyscale() // Convert to greyscale
  .toBuffer()
  .then(data => {
    return tesseract.recognize(data, { lang: "eng" });
  })
  .then(text => {
    console.log("Preprocessed Image Text:", text);
  })
  .catch(error => {
    console.error("Error:", error.message);
  });

Herkenning van tekst in meerdere talen

Een van de opvallende kenmerken van Node-Tesseract-OCR is de uitgebreide ondersteuning voor meerdere talen. De Tesseract OCR‑bibliotheek ondersteunt meer dan 100 talen, waardoor het een ideale keuze is voor applicaties die documenten in verschillende talen moeten verwerken. Softwareontwikkelaars kunnen de gewenste taal of talen opgeven, waardoor de herkenningsnauwkeurigheid voor niet‑Engelse teksten verbetert. Hieronder staat een voorbeeld dat laat zien hoe ontwikkelaars tekst in het Frans kunnen herkennen binnen Node.js‑applicaties?

Hoe tekst uit een afbeelding in het Frans herkennen via JavaScript API?

const config = {
  lang: "fra", // French language support
  oem: 1,
  psm: 3
};

tesseract.recognize("path/to/french-text-image.jpg", config)
  .then(text => {
    console.log("Recognized Text in French:", text);
  })
  .catch(error => {
    console.error("Error:", error.message);
  });