Bibliotecă JavaScript gratuită pentru a analiza textul din imagini și formulare scanate

Bibliotecă JavaScript open source de recunoaștere optică a caracterelor (OCR) pentru analizarea textului din imagini și documente scanate alb-negru, cu suport pentru preprocesarea imaginilor și șabloane în aplicații web sau Node.js.

În lumea digitală modernă, tehnologia de recunoaștere optică a caracterelor (OCR) joacă un rol esențial în transformarea imaginilor scanate, notițelor scrise de mână sau documentelor tipărite în date editabile și căutabile. Pentru dezvoltatorii JavaScript care caută o soluție ușoară și open‑source, Guten OCR oferă o opțiune convingătoare. Acest motor OCR bazat pe JavaScript este conceput pentru simplitate, fiind ideal pentru integrarea funcționalităților OCR direct în aplicații bazate pe browser sau Node.js. Bibliotecă include caracteristici importante, cum ar fi recunoașterea caracterelor prin șabloane, pragarea și binarizarea imaginii, segmentarea caracterelor, potrivirea șabloanelor și asamblarea textului, suport pentru cod modular și altele. Se concentrează pe recunoașterea textului tipărit din documente scanate alb‑negru și este cel mai potrivit pentru text bine formatat, cum ar fi cărți sau formulare.

Guten OCR este un motor OCR JavaScript open‑source creat de Gutenye. Spre deosebire de instrumentele OCR grele care necesită dependențe externe sau configurări ample, Guten OCR este scris integral în JavaScript, ceea ce înseamnă că poate rula într-un browser web sau pe server cu Node.js. Biblioteca folosește tehnici de procesare de bază a imaginii pentru a segmenta caracterele și a le identifica printr-un sistem de recunoaștere a tiparelor de caractere. Deși nu concurează încă cu motoarele OCR comerciale precum Tesseract în ceea ce privește suportul multilingv sau pentru text scris de mână, simplitatea și posibilitatea de a fi modificată îl fac o opțiune fantastică pentru proiecte educaționale, dovezi de concept sau funcționalități OCR integrate în aplicații web personalizate. Spre deosebire de Tesseract sau alte motoare mai mari, Guten OCR este intenționat ușor și focalizat — fiind un punct de plecare excelent pentru cei care doresc să înțeleagă cum funcționează OCR în profunzime.

Privire de ansamblu

O prezentare generală a funcțiilor Guten OCR.

Prezentare funcții

Analizează text din imagini
Aplică OCR pe imagini
Recunoaște textul din imagini
Convertește imagini de text
Text recunoscut din font
Preprocesare imagini
Folosește șabloane pentru OCR
Creează aplicații OCR
Salvează în browser
Extrage text
Suport multi‑threading

Guten OCR

Guten OCR suportă formatele de imagini populare enumerate mai jos.

Cititor

PNG, JPEG, BMP, TIFF, TGA, DICOM

Scriitor

PNG, JPEG, BMP, TIFF

Guten OCR

Independență de platformă

Guten OCR poate funcționa cu orice limbaj de programare bazat pe Java

Java‑runtime

Guten OCR

Începerea cu Guten OCR

Cea mai recomandată metodă de instalare a Guten OCR este prin Brew. Vă rugăm să folosiți comanda următoare pentru o instalare fără probleme

Instalați Guten OCR prin Brew

 brew install git-lfs

Instalați Guten OCR prin GitHub

 git clone git@github.com:gutenye/ocr.git

De asemenea, îl puteți instala manual; descărcați cele mai recente fișiere de lansare direct de pe GitHub repository.

Preprocesarea imaginilor înainte de operațiile OCR

Biblioteca open source Guten OCR este scrisă integral în JavaScript, fiind compatibilă atât cu mediul browser, cât și cu Node.js. Include funcții încorporate de preprocesare a imaginii pentru a spori acuratețea recunoașterii. Suportă binarizarea imaginii (convertirea în alb‑negru), reducerea zgomotului, corecția înclinării și altele. Exemplul de mai jos arată cum dezvoltatorii pot aplica mai multe etape de preprocesare a imaginii înainte de a efectua operația OCR pe imagini.

Cum să aplicați preprocesarea imaginilor înainte de operația OCR prin bibliotecă JavaScript?

const { preprocess } = require('guten-ocr');

// Apply multiple preprocessing steps
const processedImage = preprocess(imageData, [
  'grayscale',    // Convert to grayscale
  'binarize',     // Convert to black and white
  'deskew',       // Correct skew
  'denoise'       // Reduce noise
]);

// Then perform OCR on the processed image
ocr.recognize(processedImage).then(/* ... */);

Recunoaștere de caractere prin șabloane

Biblioteca JavaScript Guten OCR oferă suport complet pentru efectuarea operațiilor OCR utilizând șabloane în cadrul aplicațiilor JavaScript. În inima lui Guten OCR se află un sistem de potrivire a șabloanelor. În loc să antreneze un model de învățare automată, folosește tipare de caractere predefinite. Acest lucru face sistemul mai rapid și mai ușor de înțeles, dar mai sensibil la consistența fontului și a layout‑ului. Pentru a realiza această sarcină, biblioteca redă fiecare caracter (A–Z, a–z, 0–9, etc.) pe un canvas, iar matricea binară pentru fiecare caracter devine un șablon de referință. Când analizează o imagine, biblioteca compară segmentele imaginii cu aceste șabloane pentru a găsi cea mai bună potrivire. Procedeul se bazează pe o combinație de scanare verticală și orizontală a liniilor pentru a localiza casetele delimitatoare.

Segmentare de caractere prin biblioteca OCR

Biblioteca JavaScript open source Guten OCR permite dezvoltatorilor să efectueze segmentarea caracterelor cu ușurință. Odată ce imaginea este binarizată, pasul următor este segmentarea caracterelor individuale. Guten OCR scanează rânduri și coloane pentru a detecta zone cu pixeli negri dens, separându-le în caractere potențiale. Exemplul de mai jos demonstrează cum dezvoltatorii pot realiza segmentarea caracterelor utilizând biblioteca JavaScript OCR.

Cum să efectuați segmentarea caracterelor utilizând biblioteca JavaScript?

const segment = require('guten-ocr/segment');
const boxes = segment(binarized); // returns array of [x, y, width, height]