Gratis JavaScript‑bibliotek for å analysere tekst fra skannede bilder og skjemaer

Åpen kildekode optisk tegngjenkjennings (OCR) JavaScript‑bibliotek for å analysere tekst fra svart‑hvitt skannede bilder og dokumenter med støtte for bildeforbehandling og maler i nett‑ eller Node.js‑applikasjoner.

I den moderne digitale verden spiller optisk tegngjenkjenning (OCR)‑teknologi en kritisk rolle i å omforme skannede bilder, håndskrevne notater eller trykte dokumenter til redigerbare og søkbare data. For JavaScript‑utviklere som leter etter en lettvektig og åpen kildekode‑løsning, tilbyr Guten OCR et overbevisende alternativ. Denne JavaScript‑baserte OCR‑motoren er designet med enkelhet i tankene, noe som gjør den ideell for å integrere OCR‑funksjoner direkte i nettleser‑baserte eller Node.js‑applikasjoner. Biblioteket inneholder flere viktige funksjoner, som tegn‑gjenkjenning via maler, bilde‑terskling og binarisering, tegn‑segmentering, mal‑matching og tekst‑samling, modulær kodebase‑støtte med mer. Det fokuserer på å gjenkjenne trykt tekst fra svart‑hvitt skannede dokumenter og er best egnet for velformatert tekst, som bøker eller skjemaer.

Guten OCR er en åpen kildekode JavaScript‑OCR‑motor laget av Gutenye. I motsetning til tunge OCR‑verktøy som krever eksterne avhengigheter eller omfattende oppsett, er Guten OCR skrevet helt i JavaScript, noe som betyr at den kan kjøre i en nettleser eller på serveren med Node.js. Biblioteket bruker grunnleggende bildebehandlingsteknikker for å segmentere tegn og identifisere dem ved hjelp av et tegn‑mønster‑gjenkjenningssystem. Selv om det ennå ikke kan konkurrere med kommersielle OCR‑motorer som Tesseract når det gjelder flerspråklig eller håndskrevet tekststøtte, gjør enkelheten og hack‑vennligheten det til et fantastisk alternativ for utdanningsprosjekter, proof‑of‑concepts eller innebygde OCR‑funksjoner i tilpassede web‑apper. I motsetning til Tesseract eller andre større motorer, er Guten OCR bevisst lettvektig og fokusert – noe som gjør det til et utmerket utgangspunkt for de som ønsker å forstå hvordan OCR fungerer under panseret.

På et øyeblikk

En oversikt over Guten OCR‑funksjoner.

Funksjonsoversikt

Analyser bildetekst
Bruk OCR på bilder
Gjenkjenne bildetekst
Konverter bilder av tekst
Gjenkjent skrifttype‑tekst
Bildeforbehandling
Bruk maler for OCR
Lag OCR‑apper
Lagre i nettleser
Uthente tekst
Støtte for flertråding

Guten OCR

Guten OCR støtter populære bilde‑filformater som er oppført nedenfor.

Leser

PNG, JPEG, BMP, TIFF, TGA, DICOM

Skriver

PNG, JPEG, BMP, TIFF

Guten OCR

Plattform‑uavhengighet

Guten OCR kan fungere med ethvert Java‑basert programmeringsspråk

Java-runtime

Guten OCR

Kom i gang med Guten OCR

Den anbefalte måten å installere Guten OCR på er via Brew. Vennligst bruk følgende kommando for en smidig installasjon

Installer Guten OCR via Brew

 brew install git-lfs

Installer Guten OCR via GitHub

 git clone git@github.com:gutenye/ocr.git

Du kan også installere det manuelt; last ned de nyeste utgivelsesfilene direkte fra GitHub‑depotet.

Bildeforbehandling før OCR‑operasjoner

Det åpne kildekode‑biblioteket Guten OCR er skrevet helt i JavaScript, noe som gjør det kompatibelt med både nettleser‑ og Node.js‑miljøer. Det inkluderer innebygde bildeforbehandlingsfunksjoner for å forbedre gjenkjenningsnøyaktigheten. Det støtter bildebinarisering (konvertering til svart‑hvitt), støyreduksjon, skjevhetskorrigering og mer. Følgende eksempel viser hvordan utviklere kan anvende flere bildeforbehandlingssteg før de utfører OCR‑operasjon på bilder.

Hvordan anvende bildeforbehandling før OCR‑operasjon via JavaScript‑biblioteket?

const { preprocess } = require('guten-ocr');

// Apply multiple preprocessing steps
const processedImage = preprocess(imageData, [
  'grayscale',    // Convert to grayscale
  'binarize',     // Convert to black and white
  'deskew',       // Correct skew
  'denoise'       // Reduce noise
]);

// Then perform OCR on the processed image
ocr.recognize(processedImage).then(/* ... */);

Tegngjenkjenning via maler

JavaScript‑biblioteket Guten OCR har full støtte for å utføre OCR‑operasjoner ved hjelp av maler i JavaScript‑applikasjoner. Kjernen i Guten OCR er et mal‑matching‑system. I stedet for å trene en maskinlæringsmodell, bruker den forhåndsdefinerte tegnmønstre. Dette gjør systemet raskere og lettere å forstå, men mer sensitivt for skrifttype‑ og layout‑konsistens. For å utføre denne oppgaven rendrer biblioteket hvert tegn (A–Z, a–z, 0–9, osv.) i et lerret og deretter blir den binære matrisen for hvert tegn en referansemal. Når et bilde analyseres, sammenligner biblioteket bildesegmenter med disse malene for å finne den beste matchen. Det gjør dette ved hjelp av en kombinasjon av vertikal og horisontal linjeskanning for å lokalisere avgrensningsbokser.

Tegnssegmentering via OCR‑biblioteket

Det åpne kildekode‑JavaScript‑biblioteket Guten OCR gjør det enkelt for programvareutviklere å utføre tegnsegmentering. Når bildet er binarisert, er neste steg å segmentere individuelle tegn. Guten OCR skanner rader og kolonner for å oppdage områder med tett svarte piksler, og deler dem inn i potensielle tegn. Følgende eksempel demonstrerer hvordan programvareutviklere kan utføre tegnsegmentering ved hjelp av JavaScript‑OCR‑biblioteket.

Hvordan utføre tegnsegmentering ved hjelp av JavaScript‑biblioteket?

const segment = require('guten-ocr/segment');
const boxes = segment(binarized); // returns array of [x, y, width, height]