ओसीआर टेक्स्ट निष्कर्षण और दस्तावेज़ विश्लेषण के लिए निःशुल्क जावा लाइब्रेरी

जावा ऐप्स में ओसीआर क्षमताओं को शामिल करने के लिए ओपन सोर्स जावा ओसीआर लाइब्रेरी और छवियों के साथ-साथ स्कैन किए गए दस्तावेज़ों से टेक्स्ट निकालने की अनुमति देता है।

आज के डिजिटल युग में, छवियों और स्कैन किए गए दस्तावेज़ों से टेक्स्ट निकालने के लिए ऑप्टिकल कैरेक्टर रिकॉग्निशन (ओसीआर) एक आवश्यक उपकरण बन गया है। ओसीआर तकनीक मुद्रित या हस्तलिखित पाठ को मशीन-पठनीय डेटा में बदलने में सक्षम बनाती है, जिससे दस्तावेज़ विश्लेषण, डेटा निष्कर्षण और स्वचालन के लिए कई संभावनाएं खुलती हैं। उपलब्ध कई OCR समाधानों में से, Tess4J एक शक्तिशाली ओपन-सोर्स लाइब्रेरी के रूप में सामने आता है जो Tesseract OCR इंजन की बहुमुखी प्रतिभा को जावा प्रोग्रामिंग की सरलता के साथ जोड़ती है।

Tess4J लाइब्रेरी जावा डेवलपर्स को अपने अनुप्रयोगों में OCR क्षमताओं को सहजता से शामिल करने का अधिकार देती है। यह टेसेरैक्ट के लिए एक जावा रैपर है, एक ओसीआर इंजन जो मूल रूप से हेवलेट-पैकार्ड द्वारा विकसित किया गया है और वर्तमान में Google द्वारा बनाए रखा गया है। Tess4J, Tesseract के OCR इंजन का लाभ उठाता है, जो अपनी सटीकता के लिए प्रसिद्ध है। यह उच्च गुणवत्ता वाले परिणाम सुनिश्चित करते हुए छवियों से विश्वसनीय पाठ निष्कर्षण प्राप्त करने के लिए उन्नत एल्गोरिदम और मशीन लर्निंग तकनीकों का उपयोग करता है। यह जावा अनुप्रयोगों में ओसीआर एकीकरण को सक्षम बनाता है, जिससे यह विंडोज, लिनक्स और मैकओएस सहित विभिन्न प्लेटफार्मों के साथ संगत हो जाता है।

Tess4J एक सीधा और अच्छी तरह से प्रलेखित एपीआई प्रदान करता है, जिससे डेवलपर्स के लिए अपने जावा अनुप्रयोगों में ओसीआर क्षमताओं को एकीकृत करना आसान हो जाता है। Tess4J एक बहुमुखी और मजबूत ओपन-सोर्स लाइब्रेरी है जो डेवलपर्स को अपने जावा अनुप्रयोगों में शक्तिशाली OCR क्षमताओं को एकीकृत करने का अधिकार देती है। कई भाषाओं, छवि प्रीप्रोसेसिंग सुविधाओं, पीडीएफ रूपांतरण क्षमताओं और आत्मविश्वास स्कोरिंग प्रणाली के समर्थन के साथ, Tess4J पाठ निष्कर्षण और दस्तावेज़ विश्लेषण के लिए एक कुशल और विश्वसनीय समाधान प्रदान करता है।

Previous Next

Tess4J के साथ शुरुआत करना

Tess4J को स्थापित करने का अनुशंसित तरीका मेवेन का उपयोग करना है। कृपया सुचारू इंस्टालेशन के लिए निम्नलिखित कमांड का उपयोग करें।

Tess4J के लिए मावेन निर्भरता


<dependencies>
	<dependency>
	<groupId>net.sourceforge.tess4j</groupId>
	<artifactId>tess4j;/artifactId>
	<version>X.X.X</version>
    </dependency>
</dependencies>

GitHub के माध्यम से Tess4J इंस्टॉल करें

 git clone https://github.com/nguyenq/tess4j.git  

You can also install it manually; download the latest release files directly from GitHub repository.

जावा एपीआई के माध्यम से सामग्री निकालना

ओपन सोर्स Tess4J लाइब्रेरी सॉफ्टवेयर डेवलपर्स को जावा एप्लिकेशन के अंदर विभिन्न प्रकार की छवियों से टेक्स्ट निकालने की अनुमति देती है। लाइब्रेरी छवियों से पाठ को निकालने में सक्षम बनाती है, जिससे अनुप्रयोगों को पाठ्य सामग्री का विश्लेषण और प्रसंस्करण करने में सक्षम बनाया जाता है। यह क्षमता भावना विश्लेषण, पाठ सारांश और सूचना पुनर्प्राप्ति जैसे क्षेत्रों में अनुप्रयोग ढूंढती है। लाइब्रेरी टेसेरैक्ट ओसीआर इंजन को लोड करना, निर्दिष्ट छवि पर सामग्री निष्कर्षण करना और निकाले गए टेक्स्ट को कंसोल पर प्रिंट करना भी आसान बनाती है।

जावा ओसीआर लाइब्रेरी का उपयोग करके सामग्री निष्कर्षण करें

import net.sourceforge.tess4j.Tesseract;
import net.sourceforge.tess4j.TesseractException;

public class ContentExtractionExample {
    public static void main(String[] args) {
        // Path to the Tesseract OCR installation directory
        String tessDataPath = "path/to/tesseract";

        // Initialize Tesseract instance
        Tesseract tesseract = new Tesseract();
        tesseract.setDatapath(tessDataPath);

        try {
            // Set the language for OCR (e.g., "eng" for English)
            tesseract.setLanguage("eng");

            // Path to the image file for content extraction
            String imagePath = "path/to/image.jpg";

            // Perform content extraction
            String extractedText = tesseract.doOCR(new File(imagePath));
            System.out.println(extractedText);
        } catch (TesseractException e) {
            e.printStackTrace();
        }
    }
}

जावा एपीआई के माध्यम से सादे पाठ में पीडीएफ रूपांतरण

ओपन सोर्स Tess4J लाइब्रेरी ने जावा अनुप्रयोगों के अंदर पीडीएफ दस्तावेजों को सादे पाठ में लोड करने और परिवर्तित करने के लिए पूर्ण कार्यक्षमता प्रदान की है। Tess4J खोजने योग्य पीडीएफ दस्तावेज़ों को सादे पाठ में परिवर्तित कर सकता है, जिससे डेवलपर्स पीडीएफ फाइलों से सामग्री निकालने और आगे का विश्लेषण या डेटा प्रोसेसिंग करने में सक्षम हो सकते हैं। निम्नलिखित उदाहरण दिखाता है कि कैसे सॉफ्टवेयर डेवलपर जावा अनुप्रयोगों के अंदर मौजूदा पीडीएफ फाइल को सादे पाठ में परिवर्तित कर सकते हैं।

मौजूदा पीडीएफ फाइल को सादे टेक्स्ट में कैसे बदलें?

import net.sourceforge.tess4j.Tesseract;
import net.sourceforge.tess4j.TesseractException;
import org.apache.pdfbox.pdmodel.PDDocument;
import org.apache.pdfbox.text.PDFTextStripper;

import java.io.File;
import java.io.IOException;

public class PDFToTextConverter {
    public static void main(String[] args) {
        // Path to the PDF file
        String filePath = "path/to/your/pdf/file.pdf";

        try {
            // Load the PDF document
            PDDocument document = PDDocument.load(new File(filePath));

            // Create an instance of Tesseract OCR engine
            Tesseract tesseract = new Tesseract();

            // Set the path to the tessdata directory (containing language data)
            tesseract.setDatapath("path/to/your/tessdata/directory");

            // Iterate over each page of the PDF document
            for (int pageIndex = 0; pageIndex < document.getNumberOfPages(); pageIndex++) {
                // Extract the text from the current page
                PDFTextStripper stripper = new PDFTextStripper();
                stripper.setStartPage(pageIndex + 1);
                stripper.setEndPage(pageIndex + 1);
                String pageText = stripper.getText(document);

                // Perform OCR on the extracted text
                String ocrText = tesseract.doOCR(pageText);

                // Output the OCR result
                System.out.println("Page " + (pageIndex + 1) + " OCR Result:");
                System.out.println(ocrText);
                System.out.println("--------------------------------------");
            }

            // Close the PDF document
            document.close();
        } catch (IOException | TesseractException e) {
            e.printStackTrace();
        }
    }
}

 हिन्दी