Free Node.js API to Add OCR Capabilities to JS Projects.

Open Source Node.js OCR Library That Allows Programmers to Recognize & Extract Text from Various File Formats, including Images(JPEG, PNG), PDFs, and Documents for Free in Multi Languages.

Node-Tesseract-OCR क्या है?

आज के डिजिटल युग में, इमेज और दस्तावेज़ों से टेक्स्ट निकालना विभिन्न उद्योगों में एक महत्वपूर्ण कार्य बन गया है, जिसमें दस्तावेज़ प्रबंधन, डेटा प्रोसेसिंग और आर्टिफिशियल इंटेलिजेंस शामिल हैं। ऑप्टिकल कैरेक्टर रिकग्निशन (OCR) तकनीक ने स्कैन किए गए दस्तावेज़ों, इमेज और PDFs को संपादन योग्य टेक्स्ट फ़ॉर्मैट में बदलना संभव बना दिया है। Node-Tesseract-OCR एक ओपन-सोर्स API है जो Tesseract OCR इंजन की शक्ति को सम्मिलित करके Node.js एप्लिकेशन में OCR कार्यों को सहज और कुशल बनाता है।

Node-Tesseract-OCR Tesseract OCR इंजन के लिए एक Node.js रैपर है, जिससे सॉफ्टवेयर डेवलपर्स Node.js वातावरण में Tesseract की शक्तिशाली टेक्स्ट पहचान सुविधाओं का उपयोग कर सकते हैं। यह API इस GitHub रिपॉज़िटरी पर रखी गई है और विभिन्न उपयोग मामलों के लिए उपयुक्त कार्यात्मकताओं की एक श्रृंखला प्रदान करती है, सरल टेक्स्ट एक्सट्रैक्शन से लेकर अधिक जटिल दस्तावेज़ प्रोसेसिंग कार्यों तक। सॉफ्टवेयर डेवलपर्स कई भाषाओं में इमेज और दस्तावेज़ों से टेक्स्ट निकाल सकते हैं, जिससे यह विभिन्न अनुप्रयोगों के लिए एक बहुमुखी टूल बन जाता है।

Node-Tesseract-OCR API उन्नत इमेज प्रोसेसिंग क्षमताएँ प्रदान करती है, जिसमें इमेज फ़िल्टरिंग, रिसाइज़िंग और क्रॉपिंग शामिल हैं, ताकि निकाला गया टेक्स्ट सटीक और विश्वसनीय हो। यह 100 से अधिक भाषाओं का समर्थन करता है, जिससे यह विविध वातावरण में OCR कार्यों के लिए एक बहुमुखी समाधान बन जाता है। सॉफ्टवेयर डेवलपर्स इमेज, PDFs और दस्तावेज़ों से टेक्स्ट निकाल सकते हैं और निकाले गए टेक्स्ट को JSON, XML या साधारण टेक्स्ट जैसे विभिन्न फ़ॉर्मैट में वापस कर सकते हैं। यह हल्का, लचीला और उपयोग में आसान होने के लिए डिज़ाइन किया गया है, जिससे यह उन डेवलपर्स के लिए आदर्श विकल्प है जो अपने प्रोजेक्ट में OCR क्षमताएँ जोड़ना चाहते हैं। इसके उन्नत इमेज प्रोसेसिंग, भाषा समर्थन और एरर हैंडलिंग मैकेनिज़्म इसे उन डेवलपर्स के लिए एक आदर्श विकल्प बनाते हैं जो अपने प्रोजेक्ट में OCR क्षमताएँ जोड़ना चाहते हैं।

एक नज़र में

Node-Tesseract-OCR सुविधाओं का एक अवलोकन।

फ़ीचर अवलोकन

OCR करें
OCR क्षमताएँ जोड़ें
इमेज टेक्स्ट पहचानें
टेक्स्ट वाली इमेज को बदलें
फ़ॉन्ट टेक्स्ट पहचाना
PDF खोजें
100 से अधिक भाषाएँ
OCR ऐप्स बनाएं
ब्राउज़र में सहेजें
टेक्स्ट निकालें
मल्टी‑थ्रेडिंग समर्थन

Node-Tesseract-OCR

Node-Tesseract-OCR नीचे सूचीबद्ध लोकप्रिय इमेज फ़ाइल फ़ॉर्मैट का समर्थन करता है।

रीडर

PNG, JPEG, BMP, TIFF, TGA, DICOM

राइटर

PNG, JPEG, BMP, TIFF

Node-Tesseract-OCR

प्लेटफ़ॉर्म स्वतंत्रता

Node-Tesseract-OCR किसी भी Java‑आधारित प्रोग्रामिंग भाषा के साथ काम कर सकता है

Java

Node-Tesseract-OCR

Node-Tesseract-OCR के साथ शुरूआत

Node-Tesseract-OCR को इंस्टॉल करने का अनुशंसित तरीका npm का उपयोग करना है। सुगम इंस्टॉलेशन के लिए नीचे दिया गया कमांड उपयोग करें

npm के माध्यम से Node-Tesseract-OCR इंस्टॉल करें

npm install node-tesseract-ocr

आप इसे मैन्युअल रूप से भी इंस्टॉल कर सकते हैं; नवीनतम रिलीज़ फ़ाइलें सीधे GitHub रिपॉज़िटरी से डाउनलोड करें।

Node.js API में इमेज से टेक्स्ट एक्सट्रैक्शन

ओपन सोर्स Node-Tesseract-OCR लाइब्रेरी सॉफ्टवेयर डेवलपर्स को Node.js एप्लिकेशन के भीतर इमेज से स्वचालित रूप से टेक्स्ट निकालने वाले एप्लिकेशन बनाने में आसान बनाती है। यह स्कैन किए गए दस्तावेज़ों, PDFs, कैमरा फ़ोटो या रसीदों की फ़ोटो से टेक्स्ट एक्सट्रैक्शन का समर्थन करता है। यह खोज योग्य अभिलेख बनाना, डेटा एंट्री को स्वचालित करना, या वित्त और स्वास्थ्य देखभाल जैसे क्षेत्रों में बड़े पैमाने पर दस्तावेज़ों को प्रोसेस करने में उपयोगी हो सकता है। नीचे एक सरल उदाहरण दिया गया है जो दिखाता है कि Node.js एप्लिकेशन के भीतर इमेज से प्रोग्रामेटिक रूप से टेक्स्ट कैसे निकाला जाए।

Node.js वातावरण में इमेज से टेक्स्ट कैसे निकालें?

const tesseract = require("node-tesseract-ocr");

tesseract.recognize("path/to/image.jpg")
  .then(text => {
    console.log("Recognized Text:", text);
  })
  .catch(error => {
    console.error("Error:", error.message);
  });

Node.js में बेहतर इमेज प्री‑प्रोसेसिंग

OCR लागू करने से पहले इमेज को प्री‑प्रोसेस करना टेक्स्ट पहचान की सटीकता को काफी सुधार सकता है। ओपन सोर्स Node-Tesseract-OCR लाइब्रेरी बेसिक प्री‑प्रोसेसिंग तकनीकों का समर्थन करती है, जैसे रिसाइज़िंग, बाइनराइज़ेशन और डेस्क्यूइंग। ये प्री‑प्रोसेसिंग कदम अतिरिक्त Node.js लाइब्रेरी जैसे sharp या jimp के साथ मिलकर लागू किए जा सकते हैं। नीचे दिया गया उदाहरण दिखाता है कि सॉफ्टवेयर डेवलपर्स कम गुणवत्ता वाली इमेज पर पहचान को सुधारने के लिए प्री‑प्रोसेसिंग कदम कैसे उपयोग करते हैं।

Node.js API के माध्यम से पहचान सुधारने के लिए प्री‑प्रोसेसिंग कदम कैसे लागू करें?

const sharp = require("sharp");
const tesseract = require("node-tesseract-ocr");

sharp("path/to/input.jpg")
  .resize(800, 600) // इमेज को रिसाइज़ करें
  .greyscale() // ग्रेस्केल में बदलें
  .toBuffer()
  .then(data => {
    return tesseract.recognize(data, { lang: "eng" });
  })
  .then(text => {
    console.log("Preprocessed Image Text:", text);
  })
  .catch(error => {
    console.error("Error:", error.message);
  });

बहु‑भाषाओं में पहचाना गया टेक्स्ट

Node-Tesseract-OCR की प्रमुख विशेषताओं में से एक इसका व्यापक बहु‑भाषा समर्थन है। Tesseract OCR लाइब्रेरी 100 से अधिक भाषाओं का समर्थन करती है, जिससे यह उन अनुप्रयोगों के लिए आदर्श विकल्प बन जाता है जिन्हें विभिन्न भाषाओं में दस्तावेज़ प्रोसेस करने की आवश्यकता होती है। सॉफ्टवेयर डेवलपर्स वह भाषा(याँ) निर्दिष्ट कर सकते हैं जो वे Tesseract को उपयोग करने के लिए चाहते हैं, जिससे गैर‑अंग्रेज़ी टेक्स्ट की पहचान की सटीकता बढ़ती है। नीचे एक उदाहरण दिया गया है जो दिखाता है कि सॉफ्टवेयर डेवलपर्स Node.js एप्लिकेशन में फ्रेंच में टेक्स्ट कैसे पहचान सकते हैं?

JavaScript API के माध्यम से फ्रेंच में इमेज से टेक्स्ट कैसे पहचानें?

const config = {
  lang: "fra", // फ्रेंच भाषा समर्थन
  oem: 1,
  psm: 3
};

tesseract.recognize("path/to/french-text-image.jpg", config)
  .then(text => {
    console.log("Recognized Text in French:", text);
  })
  .catch(error => {
    console.error("Error:", error.message);
  });