ओसीआर टेक्स्ट निष्कर्षण और दस्तावेज़ विश्लेषण के लिए निःशुल्क जावा लाइब्रेरी
जावा ऐप्स में ओसीआर क्षमताओं को शामिल करने के लिए ओपन सोर्स जावा ओसीआर लाइब्रेरी और छवियों के साथ-साथ स्कैन किए गए दस्तावेज़ों से टेक्स्ट निकालने की अनुमति देता है।
आज के डिजिटल युग में, छवियों और स्कैन किए गए दस्तावेज़ों से टेक्स्ट निकालने के लिए ऑप्टिकल कैरेक्टर रिकॉग्निशन (ओसीआर) एक आवश्यक उपकरण बन गया है। ओसीआर तकनीक मुद्रित या हस्तलिखित पाठ को मशीन-पठनीय डेटा में बदलने में सक्षम बनाती है, जिससे दस्तावेज़ विश्लेषण, डेटा निष्कर्षण और स्वचालन के लिए कई संभावनाएं खुलती हैं। उपलब्ध कई OCR समाधानों में से, Tess4J एक शक्तिशाली ओपन-सोर्स लाइब्रेरी के रूप में सामने आता है जो Tesseract OCR इंजन की बहुमुखी प्रतिभा को जावा प्रोग्रामिंग की सरलता के साथ जोड़ती है।
Tess4J लाइब्रेरी जावा डेवलपर्स को अपने अनुप्रयोगों में OCR क्षमताओं को सहजता से शामिल करने का अधिकार देती है। यह टेसेरैक्ट के लिए एक जावा रैपर है, एक ओसीआर इंजन जो मूल रूप से हेवलेट-पैकार्ड द्वारा विकसित किया गया है और वर्तमान में Google द्वारा बनाए रखा गया है। Tess4J, Tesseract के OCR इंजन का लाभ उठाता है, जो अपनी सटीकता के लिए प्रसिद्ध है। यह उच्च गुणवत्ता वाले परिणाम सुनिश्चित करते हुए छवियों से विश्वसनीय पाठ निष्कर्षण प्राप्त करने के लिए उन्नत एल्गोरिदम और मशीन लर्निंग तकनीकों का उपयोग करता है। यह जावा अनुप्रयोगों में ओसीआर एकीकरण को सक्षम बनाता है, जिससे यह विंडोज, लिनक्स और मैकओएस सहित विभिन्न प्लेटफार्मों के साथ संगत हो जाता है।
Tess4J एक सीधा और अच्छी तरह से प्रलेखित एपीआई प्रदान करता है, जिससे डेवलपर्स के लिए अपने जावा अनुप्रयोगों में ओसीआर क्षमताओं को एकीकृत करना आसान हो जाता है। Tess4J एक बहुमुखी और मजबूत ओपन-सोर्स लाइब्रेरी है जो डेवलपर्स को अपने जावा अनुप्रयोगों में शक्तिशाली OCR क्षमताओं को एकीकृत करने का अधिकार देती है। कई भाषाओं, छवि प्रीप्रोसेसिंग सुविधाओं, पीडीएफ रूपांतरण क्षमताओं और आत्मविश्वास स्कोरिंग प्रणाली के समर्थन के साथ, Tess4J पाठ निष्कर्षण और दस्तावेज़ विश्लेषण के लिए एक कुशल और विश्वसनीय समाधान प्रदान करता है।
Tess4J के साथ शुरुआत करना
Tess4J को स्थापित करने का अनुशंसित तरीका मेवेन का उपयोग करना है। कृपया सुचारू इंस्टालेशन के लिए निम्नलिखित कमांड का उपयोग करें।
Tess4J के लिए मावेन निर्भरता
<dependencies>
<dependency>
<groupId>net.sourceforge.tess4j</groupId>
<artifactId>tess4j;/artifactId>
<version>X.X.X</version>
</dependency>
</dependencies>
GitHub के माध्यम से Tess4J इंस्टॉल करें
git clone https://github.com/nguyenq/tess4j.git
You can also install it manually; download the latest release files directly from GitHub repository.
जावा एपीआई के माध्यम से सामग्री निकालना
ओपन सोर्स Tess4J लाइब्रेरी सॉफ्टवेयर डेवलपर्स को जावा एप्लिकेशन के अंदर विभिन्न प्रकार की छवियों से टेक्स्ट निकालने की अनुमति देती है। लाइब्रेरी छवियों से पाठ को निकालने में सक्षम बनाती है, जिससे अनुप्रयोगों को पाठ्य सामग्री का विश्लेषण और प्रसंस्करण करने में सक्षम बनाया जाता है। यह क्षमता भावना विश्लेषण, पाठ सारांश और सूचना पुनर्प्राप्ति जैसे क्षेत्रों में अनुप्रयोग ढूंढती है। लाइब्रेरी टेसेरैक्ट ओसीआर इंजन को लोड करना, निर्दिष्ट छवि पर सामग्री निष्कर्षण करना और निकाले गए टेक्स्ट को कंसोल पर प्रिंट करना भी आसान बनाती है।
जावा ओसीआर लाइब्रेरी का उपयोग करके सामग्री निष्कर्षण करें
import net.sourceforge.tess4j.Tesseract;
import net.sourceforge.tess4j.TesseractException;
public class ContentExtractionExample {
public static void main(String[] args) {
// Path to the Tesseract OCR installation directory
String tessDataPath = "path/to/tesseract";
// Initialize Tesseract instance
Tesseract tesseract = new Tesseract();
tesseract.setDatapath(tessDataPath);
try {
// Set the language for OCR (e.g., "eng" for English)
tesseract.setLanguage("eng");
// Path to the image file for content extraction
String imagePath = "path/to/image.jpg";
// Perform content extraction
String extractedText = tesseract.doOCR(new File(imagePath));
System.out.println(extractedText);
} catch (TesseractException e) {
e.printStackTrace();
}
}
}
जावा एपीआई के माध्यम से सादे पाठ में पीडीएफ रूपांतरण
ओपन सोर्स Tess4J लाइब्रेरी ने जावा अनुप्रयोगों के अंदर पीडीएफ दस्तावेजों को सादे पाठ में लोड करने और परिवर्तित करने के लिए पूर्ण कार्यक्षमता प्रदान की है। Tess4J खोजने योग्य पीडीएफ दस्तावेज़ों को सादे पाठ में परिवर्तित कर सकता है, जिससे डेवलपर्स पीडीएफ फाइलों से सामग्री निकालने और आगे का विश्लेषण या डेटा प्रोसेसिंग करने में सक्षम हो सकते हैं। निम्नलिखित उदाहरण दिखाता है कि कैसे सॉफ्टवेयर डेवलपर जावा अनुप्रयोगों के अंदर मौजूदा पीडीएफ फाइल को सादे पाठ में परिवर्तित कर सकते हैं।
मौजूदा पीडीएफ फाइल को सादे टेक्स्ट में कैसे बदलें?
import net.sourceforge.tess4j.Tesseract;
import net.sourceforge.tess4j.TesseractException;
import org.apache.pdfbox.pdmodel.PDDocument;
import org.apache.pdfbox.text.PDFTextStripper;
import java.io.File;
import java.io.IOException;
public class PDFToTextConverter {
public static void main(String[] args) {
// Path to the PDF file
String filePath = "path/to/your/pdf/file.pdf";
try {
// Load the PDF document
PDDocument document = PDDocument.load(new File(filePath));
// Create an instance of Tesseract OCR engine
Tesseract tesseract = new Tesseract();
// Set the path to the tessdata directory (containing language data)
tesseract.setDatapath("path/to/your/tessdata/directory");
// Iterate over each page of the PDF document
for (int pageIndex = 0; pageIndex < document.getNumberOfPages(); pageIndex++) {
// Extract the text from the current page
PDFTextStripper stripper = new PDFTextStripper();
stripper.setStartPage(pageIndex + 1);
stripper.setEndPage(pageIndex + 1);
String pageText = stripper.getText(document);
// Perform OCR on the extracted text
String ocrText = tesseract.doOCR(pageText);
// Output the OCR result
System.out.println("Page " + (pageIndex + 1) + " OCR Result:");
System.out.println(ocrText);
System.out.println("--------------------------------------");
}
// Close the PDF document
document.close();
} catch (IOException | TesseractException e) {
e.printStackTrace();
}
}
}