Free Node.js API to Add OCR Capabilities to JS Projects.
Open Source Node.js OCR Library That Allows Programmers to Recognize & Extract Text from Various File Formats, including Images(JPEG, PNG), PDFs, and Documents for Free in Multi Languages.
Node-Tesseract-OCR क्या है?
आज के डिजिटल युग में, इमेज और दस्तावेज़ों से टेक्स्ट निकालना विभिन्न उद्योगों में एक महत्वपूर्ण कार्य बन गया है, जिसमें दस्तावेज़ प्रबंधन, डेटा प्रोसेसिंग और आर्टिफिशियल इंटेलिजेंस शामिल हैं। ऑप्टिकल कैरेक्टर रिकग्निशन (OCR) तकनीक ने स्कैन किए गए दस्तावेज़ों, इमेज और PDFs को संपादन योग्य टेक्स्ट फ़ॉर्मैट में बदलना संभव बना दिया है। Node-Tesseract-OCR एक ओपन-सोर्स API है जो Tesseract OCR इंजन की शक्ति को सम्मिलित करके Node.js एप्लिकेशन में OCR कार्यों को सहज और कुशल बनाता है।
Node-Tesseract-OCR Tesseract OCR इंजन के लिए एक Node.js रैपर है, जिससे सॉफ्टवेयर डेवलपर्स Node.js वातावरण में Tesseract की शक्तिशाली टेक्स्ट पहचान सुविधाओं का उपयोग कर सकते हैं। यह API इस GitHub रिपॉज़िटरी पर रखी गई है और विभिन्न उपयोग मामलों के लिए उपयुक्त कार्यात्मकताओं की एक श्रृंखला प्रदान करती है, सरल टेक्स्ट एक्सट्रैक्शन से लेकर अधिक जटिल दस्तावेज़ प्रोसेसिंग कार्यों तक। सॉफ्टवेयर डेवलपर्स कई भाषाओं में इमेज और दस्तावेज़ों से टेक्स्ट निकाल सकते हैं, जिससे यह विभिन्न अनुप्रयोगों के लिए एक बहुमुखी टूल बन जाता है।
Node-Tesseract-OCR API उन्नत इमेज प्रोसेसिंग क्षमताएँ प्रदान करती है, जिसमें इमेज फ़िल्टरिंग, रिसाइज़िंग और क्रॉपिंग शामिल हैं, ताकि निकाला गया टेक्स्ट सटीक और विश्वसनीय हो। यह 100 से अधिक भाषाओं का समर्थन करता है, जिससे यह विविध वातावरण में OCR कार्यों के लिए एक बहुमुखी समाधान बन जाता है। सॉफ्टवेयर डेवलपर्स इमेज, PDFs और दस्तावेज़ों से टेक्स्ट निकाल सकते हैं और निकाले गए टेक्स्ट को JSON, XML या साधारण टेक्स्ट जैसे विभिन्न फ़ॉर्मैट में वापस कर सकते हैं। यह हल्का, लचीला और उपयोग में आसान होने के लिए डिज़ाइन किया गया है, जिससे यह उन डेवलपर्स के लिए आदर्श विकल्प है जो अपने प्रोजेक्ट में OCR क्षमताएँ जोड़ना चाहते हैं। इसके उन्नत इमेज प्रोसेसिंग, भाषा समर्थन और एरर हैंडलिंग मैकेनिज़्म इसे उन डेवलपर्स के लिए एक आदर्श विकल्प बनाते हैं जो अपने प्रोजेक्ट में OCR क्षमताएँ जोड़ना चाहते हैं।
Node-Tesseract-OCR के साथ शुरूआत
Node-Tesseract-OCR को इंस्टॉल करने का अनुशंसित तरीका npm का उपयोग करना है। सुगम इंस्टॉलेशन के लिए नीचे दिया गया कमांड उपयोग करें
npm के माध्यम से Node-Tesseract-OCR इंस्टॉल करें
npm install node-tesseract-ocr आप इसे मैन्युअल रूप से भी इंस्टॉल कर सकते हैं; नवीनतम रिलीज़ फ़ाइलें सीधे GitHub रिपॉज़िटरी से डाउनलोड करें।
Node.js API में इमेज से टेक्स्ट एक्सट्रैक्शन
ओपन सोर्स Node-Tesseract-OCR लाइब्रेरी सॉफ्टवेयर डेवलपर्स को Node.js एप्लिकेशन के भीतर इमेज से स्वचालित रूप से टेक्स्ट निकालने वाले एप्लिकेशन बनाने में आसान बनाती है। यह स्कैन किए गए दस्तावेज़ों, PDFs, कैमरा फ़ोटो या रसीदों की फ़ोटो से टेक्स्ट एक्सट्रैक्शन का समर्थन करता है। यह खोज योग्य अभिलेख बनाना, डेटा एंट्री को स्वचालित करना, या वित्त और स्वास्थ्य देखभाल जैसे क्षेत्रों में बड़े पैमाने पर दस्तावेज़ों को प्रोसेस करने में उपयोगी हो सकता है। नीचे एक सरल उदाहरण दिया गया है जो दिखाता है कि Node.js एप्लिकेशन के भीतर इमेज से प्रोग्रामेटिक रूप से टेक्स्ट कैसे निकाला जाए।
Node.js वातावरण में इमेज से टेक्स्ट कैसे निकालें?
const tesseract = require("node-tesseract-ocr");
tesseract.recognize("path/to/image.jpg")
.then(text => {
console.log("Recognized Text:", text);
})
.catch(error => {
console.error("Error:", error.message);
});
Node.js में बेहतर इमेज प्री‑प्रोसेसिंग
OCR लागू करने से पहले इमेज को प्री‑प्रोसेस करना टेक्स्ट पहचान की सटीकता को काफी सुधार सकता है। ओपन सोर्स Node-Tesseract-OCR लाइब्रेरी बेसिक प्री‑प्रोसेसिंग तकनीकों का समर्थन करती है, जैसे रिसाइज़िंग, बाइनराइज़ेशन और डेस्क्यूइंग। ये प्री‑प्रोसेसिंग कदम अतिरिक्त Node.js लाइब्रेरी जैसे sharp या jimp के साथ मिलकर लागू किए जा सकते हैं। नीचे दिया गया उदाहरण दिखाता है कि सॉफ्टवेयर डेवलपर्स कम गुणवत्ता वाली इमेज पर पहचान को सुधारने के लिए प्री‑प्रोसेसिंग कदम कैसे उपयोग करते हैं।
Node.js API के माध्यम से पहचान सुधारने के लिए प्री‑प्रोसेसिंग कदम कैसे लागू करें?
const sharp = require("sharp");
const tesseract = require("node-tesseract-ocr");
sharp("path/to/input.jpg")
.resize(800, 600) // इमेज को रिसाइज़ करें
.greyscale() // ग्रेस्केल में बदलें
.toBuffer()
.then(data => {
return tesseract.recognize(data, { lang: "eng" });
})
.then(text => {
console.log("Preprocessed Image Text:", text);
})
.catch(error => {
console.error("Error:", error.message);
});
बहु‑भाषाओं में पहचाना गया टेक्स्ट
Node-Tesseract-OCR की प्रमुख विशेषताओं में से एक इसका व्यापक बहु‑भाषा समर्थन है। Tesseract OCR लाइब्रेरी 100 से अधिक भाषाओं का समर्थन करती है, जिससे यह उन अनुप्रयोगों के लिए आदर्श विकल्प बन जाता है जिन्हें विभिन्न भाषाओं में दस्तावेज़ प्रोसेस करने की आवश्यकता होती है। सॉफ्टवेयर डेवलपर्स वह भाषा(याँ) निर्दिष्ट कर सकते हैं जो वे Tesseract को उपयोग करने के लिए चाहते हैं, जिससे गैर‑अंग्रेज़ी टेक्स्ट की पहचान की सटीकता बढ़ती है। नीचे एक उदाहरण दिया गया है जो दिखाता है कि सॉफ्टवेयर डेवलपर्स Node.js एप्लिकेशन में फ्रेंच में टेक्स्ट कैसे पहचान सकते हैं?
JavaScript API के माध्यम से फ्रेंच में इमेज से टेक्स्ट कैसे पहचानें?
const config = {
lang: "fra", // फ्रेंच भाषा समर्थन
oem: 1,
psm: 3
};
tesseract.recognize("path/to/french-text-image.jpg", config)
.then(text => {
console.log("Recognized Text in French:", text);
})
.catch(error => {
console.error("Error:", error.message);
});