1. Məhsullar
  2.   OCR
  3.   Node.js
  4.   Node-Tesseract-OCR
 
  

Free Node.js API to Add OCR Capabilities to JS Projects.

Open Source Node.js OCR Library That Allows Programmers to Recognize & Extract Text from Various File Formats, including Images(JPEG, PNG), PDFs, and Documents for Free in Multi Languages.

Node-Tesseract-OCR nədir?

Bu rəqəmsal dövrdə şəkillərdən və sənədlərdən mətn çıxarmaq müxtəlif sahələrdə, o cümlədən sənəd idarəçiliyi, məlumat emalı və süni intellekt üçün vacib bir vəzifə halına gəlib. Optik Simvol Tanıma (OCR) texnologiyası skan edilmiş sənədləri, şəkilləri və PDF-ləri redaktə edilə bilən mətn formatlarına çevirməyə imkan verir. Node-Tesseract-OCR, Tesseract OCR mühərrikinin gücünü birləşdirən açıq mənbəli API‑dir və Node.js tətbiqlərində OCR vəzifələrini problemsiz və səmərəli şəkildə yerinə yetirməyə şərait yaradır.

Node-Tesseract-OCR, Tesseract OCR mühərrikinin Node.js sarğısıdır və proqramçılara Tesseract‑ın güclü mətn tanıma xüsusiyyətlərini Node.js mühitində istifadə etməyə imkan verir. API bu GitHub deposunda saxlanılır və sadə mətn çıxarışından daha mürəkkəb sənəd emalı vəzifələrinə qədər müxtəlif istifadə halları üçün uyğun bir sıra funksionallıqlar təqdim edir. Proqramçılar bir neçə dildə şəkillərdən və sənədlərdən mətn çıxara bilirlər, bu da onu müxtəlif tətbiqlər üçün çox yönlü bir alət edir.

Node-Tesseract-OCR API‑si şəkil filtrasiya, ölçülərin dəyişdirilməsi və kəsilmə kimi qabaqcıl şəkil emalı imkanları təqdim edir ki, çıxarılan mətn dəqiq və etibarlı olsun. 100‑dən çox dili dəstəkləyir, bu da onu müxtəlif mühitlərdə OCR vəzifələri üçün çox yönlü həllə çevirir. Proqramçılar şəkillərdən, PDF‑lərdən və sənədlərdən mətn çıxara və çıxarılan mətni JSON, XML və ya sadə mətn kimi müxtəlif formatlarda geri qaytara bilirlər. API yüngül, elastik və istifadəsi asandır, bu da OCR imkanlarını layihələrinə əlavə etmək istəyən inkişafçılar üçün ideal seçimdir. Qabaqcıl şəkil emalı, dil dəstəyi və səhv idarəetmə mexanizmləri ilə bu, OCR imkanlarını layihələrinə əlavə etmək istəyən inkişafçılar üçün ideal seçimdir.

Previous Next

Node-Tesseract-OCR ilə Başlamaq

Node-Tesseract-OCR quraşdırmağın tövsiyə olunan yolu npm istifadə etməkdir. Zəhmət olmasa, problemsiz quraşdırma üçün aşağıdakı əmri istifadə edin

npm vasitəsilə Node-Tesseract-OCR quraşdırın

npm install node-tesseract-ocr 

Siz həmçinin onu əl ilə quraşdıra bilərsiniz; son buraxılış fayllarını birbaşa GitHub deposundan yükləyin.

Node.js API-də Şəkillərdən Mətn Çıxarışı

Açıq mənbəli Node-Tesseract-OCR kitabxanası proqramçılara Node.js tətbiqlərində şəkillərdən avtomatik mətn çıxaran tətbiqlər yaratmağı asanlaşdırır. Bu, skan edilmiş sənədlərdən, PDF‑lərdən, kamera şəkillərindən və ya qəbz şəkillərindən mətn çıxarmağı dəstəkləyir. Bu, axtarışa yönəlik arxivlərin yaradılması, məlumat daxilolmasının avtomatlaşdırılması və ya maliyyə və səhiyyə kimi sahələrdə böyük həcmli sənədlərin emalı üçün faydalı ola bilər. Aşağıda Node.js tətbiqlərində şəkillərdən proqram vasitəsilə mətn çıxarmağı göstərən sadə bir nümunə təqdim olunur.

Node.js Mühitində Şəkillərdən Mətn Necə Çıxarılır?

const tesseract = require("node-tesseract-ocr");

tesseract.recognize("path/to/image.jpg")
  .then(text => {
    console.log("Recognized Text:", text);
  })
  .catch(error => {
    console.error("Error:", error.message);
  });

Node.js-də Daha Yaxşı Şəkil Ön İşlənməsi

OCR‑a tətbiq etməzdən əvvəl şəkillərin ön işlənməsi mətn tanıma dəqiqliyini əhəmiyyətli dərəcədə artırır. Açıq mənbəli Node-Tesseract-OCR kitabxanası ölçülərin dəyişdirilməsi, ikiliyə çevrilmə və əyilmənin düzəldilməsi kimi əsas ön işləmə texnikalarını dəstəkləyir. Bu ön işləmə addımları Node.js‑in əlavə kitabxanaları, məsələn sharp və ya jimp, Node-Tesseract-OCR ilə birlikdə istifadə edilərək həyata keçirilə bilər. Aşağıdakı nümunə aşağı keyfiyyətli şəkillərdə tanıma dəqiqliyini artırmaq üçün proqramçılar tərəfindən ön işləmə addımlarının necə istifadə edildiyini göstərir.

Node.js API vasitəsilə Tanıma Təkmilləşdirmək Üçün Ön İşləmə Addımlarını Necə Tətbiq Etmək?

const sharp = require("sharp");
const tesseract = require("node-tesseract-ocr");

sharp("path/to/input.jpg")
  .resize(800, 600) // Resize the image
  .greyscale() // Convert to greyscale
  .toBuffer()
  .then(data => {
    return tesseract.recognize(data, { lang: "eng" });
  })
  .then(text => {
    console.log("Preprocessed Image Text:", text);
  })
  .catch(error => {
    console.error("Error:", error.message);
  });

Çoxdilli Tanınan Mətn

Node-Tesseract-OCR‑un ən diqqətəlayiq xüsusiyyətlərindən biri onun geniş çoxdilli dəstəyi‑dir. Tesseract OCR kitabxanası 100‑dən çox dili dəstəkləyir, bu da müxtəlif dillərdə sənədləri emal etməli olan tətbiqlər üçün ideal seçimdir. Proqramçılar Tesseract‑ın istifadə etməsini istədikləri dili (dilləri) təyin edə bilərlər, bu da ingilis dili olmayan mətnlərin tanıma dəqiqliyini artırır. Aşağıdakı nümunə proqramçılara Fransızcadan şəkildən mətnin necə tanınacağını göstərir.

JavaScript API vasitəsilə Fransızcadan Şəkildən Mətn Necə Tanımaq?

const config = {
  lang: "fra", // French language support
  oem: 1,
  psm: 3
};

tesseract.recognize("path/to/french-text-image.jpg", config)
  .then(text => {
    console.log("Recognized Text in French:", text);
  })
  .catch(error => {
    console.error("Error:", error.message);
  });

 Azəri