टेक्स्ट और छवियों को संसाधित करने के लिए ओसीआर के लिए ओपन सोर्स .NET एपीआई

ओपन सोर्स .NET ऑप्टिकल कैरेक्टर रिकॉग्निशन (ओसीआर) एपीआई का उपयोग टेक्स्ट वाली छवियों (स्कैन की गई छवियों और पीडीएफ फाइलों) को मशीन-पठनीय टेक्स्ट में परिवर्तित करने के लिए किया जाता है।

टेस्सेरैक्ट एक बहुत शक्तिशाली ओपन सोर्स ऑप्टिकल कैरेक्टर रिकग्निशन (ओसीआर) इंजन है जो सॉफ्टवेयर डेवलपर्स को पायथन अनुप्रयोगों के अंदर टेक्स्ट वाली विभिन्न प्रकार की छवियों को मशीन-पठनीय टेक्स्ट में परिवर्तित करने में सक्षम बनाता है। ओपन सोर्स तकनीक ने सॉफ्टवेयर डेवलपर्स के एप्लिकेशन बनाने के तरीके में क्रांति ला दी है, जिससे उनके लिए अपने एप्लिकेशन के अंदर शक्तिशाली टूल और लाइब्रेरी तक पहुंच और उन्हें एकीकृत करना आसान हो गया है। यह Tesseract-ocr के लिए एक .NET रैपर है और इसका उपयोग दस्तावेज़ स्कैनिंग और डेटा निष्कर्षण से लेकर स्वचालित छवि पहचान और अनुवाद तक अनुप्रयोगों की एक विस्तृत श्रृंखला में किया जा सकता है।

टेस्सेरैक्ट को मूल रूप से 1980 के दशक में हेवलेट-पैकार्ड द्वारा विकसित किया गया था और बाद में 2005 में एक ओपन सोर्स प्रोजेक्ट के रूप में जारी किया गया था। तब से, यह यूनिकोड (यूटीएफ) के समर्थन के साथ दुनिया में सबसे व्यापक रूप से उपयोग किए जाने वाले ओसीआर इंजनों में से एक बन गया है। -8), 100 से अधिक भाषाएँ, और छवि प्रारूपों की एक विस्तृत श्रृंखला को संसाधित करने की क्षमता। एपीआई में विभिन्न विशेषताएं शामिल हैं जैसे दस्तावेज़ स्कैनिंग, दस्तावेज़ डिजिटलीकरण, दस्तावेज़ों को खोजने योग्य बनाना, मशीन-पठनीय दस्तावेज़ बनाना, ओसीआर प्रदर्शन को अनुकूलित करना और भी बहुत कुछ।

Tesseract को संभालना बहुत आसान है और इसे JPEG, BMP, PSD, PNG, TIFF और कई अन्य छवि प्रारूपों की एक विस्तृत श्रृंखला में डिजिटल छवियों के भीतर पाठ को पहचानने के लिए डिज़ाइन किया गया है। लाइब्रेरी अत्यधिक अनुकूलन योग्य है, जिसमें विकल्पों की एक विस्तृत श्रृंखला है जिसका उपयोग विभिन्न प्रकार की छवियों और पाठ के लिए ओसीआर प्रदर्शन को अनुकूलित करने के लिए किया जा सकता है। चाहे आप दस्तावेज़ स्कैनिंग और डिजिटलीकरण, डेटा निष्कर्षण, या छवि पहचान और अनुवाद पर काम कर रहे हों, टेसेरैक्ट एक शक्तिशाली और विश्वसनीय समाधान प्रदान करता है जो आपके लक्ष्यों को जल्दी और आसानी से प्राप्त करने में आपकी सहायता कर सकता है।

Previous Next

टेस्सेरैक्ट के साथ शुरुआत करना

Tesseract को स्थापित करने का अनुशंसित तरीका NuGet का उपयोग करना है। कृपया सुचारू इंस्टालेशन के लिए निम्नलिखित कमांड का उपयोग करें।

NuGet के माध्यम से Tesseract इंस्टॉल करें

 Install-Package Tesseract 

GitHub के माध्यम से Tesseract इंस्टॉल करें

 git clone https://github.com/charlesw/tesseract.git 

C#

के माध्यम से एक छवि से मूल पाठ निकालें

ओपन सोर्स C# लाइब्रेरी Tesseract सॉफ्टवेयर डेवलपर्स को अपने स्वयं के .NET अनुप्रयोगों के अंदर एक छवि से टेक्स्ट निकालने में सक्षम बनाता है। लाइब्रेरी सॉफ़्टवेयर डेवलपर्स के लिए स्कैन किए गए दस्तावेज़ों या छवियों की पाठ्य सामग्री को आसानी से पुनः प्राप्त करना और आगे की प्रक्रिया या विश्लेषण के लिए इसका उपयोग करना आसान बनाती है। कार्य को प्राप्त करने के लिए पहले डेवलपर्स को आपकी कोड फ़ाइल में Tesseract नेमस्पेस आयात करना होगा और Tesseract इंजन का एक उदाहरण बनाना होगा। निम्नलिखित उदाहरण दिखाता है कि छवि से मूल पाठ को कैसे निकाला जाए और इसे कंसोल पर आउटपुट किया जाए।

C# API के माध्यम से छवि से मूल पाठ कैसे निकालें?

using Tesseract;
using System.Drawing;

namespace MyNamespace
{
    class Program
    {
        static void Main(string[] args)
        {
            var engine = new TesseractEngine("./tessdata", "eng", EngineMode.Default);
            var image = new Bitmap(@"C:\path\to\your\image.jpg");
            var page = engine.Process(image);
            var text = page.GetText();
            image.Dispose();
            page.Dispose();
            engine.Dispose();
            Console.WriteLine(text);
        }
    }
}

C# .NET के माध्यम से छवि को खोजने योग्य पीडीएफ में बदलें

ओपन सोर्स C# लाइब्रेरी Tesseract में C# कोड का उपयोग करके छवियों को खोजने योग्य पीडीएफ दस्तावेज़ों में परिवर्तित करने के लिए कुछ उपयोगी सुविधाएं शामिल की गई हैं। लाइब्रेरी में विभिन्न आउटपुट स्वरूपों के लिए समर्थन भी शामिल है, जैसे सादा पाठ, एचओसीआर (एचटीएमएल), पीडीएफ, अदृश्य-पाठ-केवल पीडीएफ, टीएसवी, एएलटीओ और कई अन्य। कृपया याद रखें कि बेहतर OCR परिणाम प्राप्त करने के लिए, डेवलपर को उन छवियों की गुणवत्ता में सुधार करने की आवश्यकता है जो वे Tesseract को प्रदान करने जा रहे हैं। निम्नलिखित उदाहरण दिखाता है कि छवि से मान्यता प्राप्त पाठ युक्त एक खोजने योग्य पीडीएफ दस्तावेज़ कैसे बनाया जाए।

C# .NET का उपयोग करके छवि को खोजने योग्य पीडीएफ में कैसे परिवर्तित करें

using (var engine = new TesseractEngine(@"./tessdata", "eng", EngineMode.Default))
    {
        using (var img = Pix.LoadFromFile(testImagePath))
        {
            using (var page = engine.Process(img))
            {
                var text = page.GetText();
                Console.WriteLine("Mean confidence: {0}", page.GetMeanConfidence());

                Console.WriteLine("Text (GetText): \r\n{0}", text);
                Console.WriteLine("Text (iterator):");
                }
        }
    }
FORMAT_PLAINTEXT);
 हिन्दी