OCR পাঠ্য নিষ্কাশন এবং নথি বিশ্লেষণের জন্য বিনামূল্যে জাভা লাইব্রেরি
ওপেন সোর্স জাভা ওসিআর লাইব্রেরি জাভা অ্যাপগুলিতে ওসিআর ক্ষমতাগুলি অন্তর্ভুক্ত করার জন্য এবং ছবিগুলির পাশাপাশি স্ক্যান করা নথিগুলি থেকে পাঠ্য বের করার অনুমতি দেয়।
আজকের ডিজিটাল যুগে, অপটিক্যাল ক্যারেক্টার রিকগনিশন (OCR) ইমেজ এবং স্ক্যান করা ডকুমেন্ট থেকে টেক্সট বের করার জন্য একটি অপরিহার্য টুল হয়ে উঠেছে। ওসিআর প্রযুক্তি মুদ্রিত বা হাতে লেখা পাঠ্যকে মেশিন-পাঠযোগ্য ডেটাতে রূপান্তর করতে সক্ষম করে, ডকুমেন্ট বিশ্লেষণ, ডেটা নিষ্কাশন এবং অটোমেশনের জন্য অসংখ্য সম্ভাবনা উন্মুক্ত করে। উপলব্ধ অনেকগুলি OCR সমাধানগুলির মধ্যে, Tess4J একটি শক্তিশালী ওপেন-সোর্স লাইব্রেরি হিসাবে দাঁড়িয়েছে যা জাভা প্রোগ্রামিংয়ের সরলতার সাথে টেসার্যাক্ট ওসিআর ইঞ্জিনের বহুমুখিতাকে একত্রিত করে৷
Tess4J লাইব্রেরি জাভা ডেভেলপারদের ওসিআর ক্ষমতাগুলিকে তাদের অ্যাপ্লিকেশনগুলিতে নির্বিঘ্নে অন্তর্ভুক্ত করার ক্ষমতা দেয়৷ এটি Tesseract-এর জন্য একটি জাভা র্যাপার, একটি OCR ইঞ্জিন যা মূলত Hewlett-Packard দ্বারা তৈরি এবং বর্তমানে Google দ্বারা রক্ষণাবেক্ষণ করা হয়েছে। Tess4J Tesseract-এর OCR ইঞ্জিনের ব্যবহার করে, যা তার নির্ভুলতার জন্য বিখ্যাত। এটি উচ্চ-মানের ফলাফল নিশ্চিত করে, ছবি থেকে নির্ভরযোগ্য পাঠ্য নিষ্কাশন অর্জনের জন্য উন্নত অ্যালগরিদম এবং মেশিন লার্নিং কৌশল নিয়োগ করে। এটি জাভা অ্যাপ্লিকেশানগুলিতে OCR ইন্টিগ্রেশন সক্ষম করে, এটিকে Windows, Linux, এবং macOS সহ বিভিন্ন প্ল্যাটফর্মের সাথে সামঞ্জস্যপূর্ণ করে তোলে৷
Tess4J একটি সহজবোধ্য এবং ভাল-ডকুমেন্টেড API প্রদান করে, যা ডেভেলপারদের তাদের জাভা অ্যাপ্লিকেশনগুলিতে OCR ক্ষমতাগুলিকে একীভূত করা সহজ করে তোলে। Tess4J হল একটি বহুমুখী এবং শক্তিশালী ওপেন সোর্স লাইব্রেরি যা ডেভেলপারদের তাদের জাভা অ্যাপ্লিকেশনগুলিতে শক্তিশালী OCR ক্ষমতাগুলিকে একীভূত করার ক্ষমতা দেয়৷ একাধিক ভাষা, ইমেজ প্রিপ্রসেসিং বৈশিষ্ট্য, পিডিএফ রূপান্তর ক্ষমতা এবং আত্মবিশ্বাস স্কোরিং সিস্টেমের সমর্থন সহ, Tess4J পাঠ্য নিষ্কাশন এবং নথি বিশ্লেষণের জন্য একটি দক্ষ এবং নির্ভরযোগ্য সমাধান প্রদান করে।
Tess4J দিয়ে শুরু করা
Tess4J ইনস্টল করার প্রস্তাবিত উপায় হল Maven ব্যবহার করা। একটি মসৃণ ইনস্টলেশনের জন্য অনুগ্রহ করে নিম্নলিখিত কমান্ডটি ব্যবহার করুন।
Tess4J এর জন্য Maven নির্ভরতা
<dependencies>
<dependency>
<groupId>net.sourceforge.tess4j</groupId>
<artifactId>tess4j;/artifactId>
<version>X.X.X</version>
</dependency>
</dependencies>
GitHub এর মাধ্যমে Tess4J ইনস্টল করুন
git clone https://github.com/nguyenq/tess4j.git
আপনি নিজেও এটি ইনস্টল করতে পারেন; সরাসরি GitHub সংগ্রহস্থল থেকে সর্বশেষ রিলিজ ফাইল ডাউনলোড করুন।
জাভা API এর মাধ্যমে সামগ্রী নিষ্কাশন
ওপেন সোর্স Tess4J লাইব্রেরি সফ্টওয়্যার ডেভেলপারদের জাভা অ্যাপ্লিকেশানের মধ্যে বিভিন্ন ধরনের ছবি থেকে পাঠ্য বের করতে দেয়। লাইব্রেরিটি চিত্র থেকে পাঠ্য নিষ্কাশন সক্ষম করে, অ্যাপ্লিকেশনগুলিকে পাঠ্য বিষয়বস্তু বিশ্লেষণ এবং প্রক্রিয়া করতে সক্ষম করে। এই ক্ষমতাটি অনুভূতি বিশ্লেষণ, পাঠ্য সংক্ষিপ্তকরণ এবং তথ্য পুনরুদ্ধারের মতো ক্ষেত্রে অ্যাপ্লিকেশন খুঁজে পায়। লাইব্রেরিটি Tesseract OCR ইঞ্জিন লোড করা, নির্দিষ্ট চিত্রের বিষয়বস্তু নিষ্কাশন করা এবং এক্সট্রাক্ট করা পাঠ্য কনসোলে প্রিন্ট করা সহজ করে তোলে।
জাভা ওসিআর লাইব্রেরি ব্যবহার করে সামগ্রী নিষ্কাশন সম্পাদন করুন
import net.sourceforge.tess4j.Tesseract;
import net.sourceforge.tess4j.TesseractException;
public class ContentExtractionExample {
public static void main(String[] args) {
// Path to the Tesseract OCR installation directory
String tessDataPath = "path/to/tesseract";
// Initialize Tesseract instance
Tesseract tesseract = new Tesseract();
tesseract.setDatapath(tessDataPath);
try {
// Set the language for OCR (e.g., "eng" for English)
tesseract.setLanguage("eng");
// Path to the image file for content extraction
String imagePath = "path/to/image.jpg";
// Perform content extraction
String extractedText = tesseract.doOCR(new File(imagePath));
System.out.println(extractedText);
} catch (TesseractException e) {
e.printStackTrace();
}
}
}
জাভা API এর মাধ্যমে প্লেইন টেক্সটে পিডিএফ রূপান্তর
ওপেন সোর্স Tess4J লাইব্রেরি জাভা অ্যাপ্লিকেশনের ভিতরে পিডিএফ ডকুমেন্টগুলিকে একটি প্লেইন টেক্সটে লোড এবং রূপান্তর করার জন্য সম্পূর্ণ কার্যকারিতা প্রদান করেছে। Tess4J অনুসন্ধানযোগ্য PDF নথিগুলিকে প্লেইন টেক্সটে রূপান্তর করতে পারে, যা ডেভেলপারদের PDF ফাইলগুলি থেকে সামগ্রী বের করতে এবং আরও বিশ্লেষণ বা ডেটা প্রক্রিয়াকরণ করতে সক্ষম করে৷ নিম্নলিখিত উদাহরণ দেখায়, কীভাবে সফ্টওয়্যার বিকাশকারীরা জাভা অ্যাপ্লিকেশনগুলির মধ্যে একটি বিদ্যমান পিডিএফ ফাইলকে প্লেইন টেক্সটে রূপান্তর করতে পারে৷
কীভাবে একটি বিদ্যমান পিডিএফ ফাইলকে প্লেইন টেক্সটে রূপান্তর করবেন?
import net.sourceforge.tess4j.Tesseract;
import net.sourceforge.tess4j.TesseractException;
import org.apache.pdfbox.pdmodel.PDDocument;
import org.apache.pdfbox.text.PDFTextStripper;
import java.io.File;
import java.io.IOException;
public class PDFToTextConverter {
public static void main(String[] args) {
// Path to the PDF file
String filePath = "path/to/your/pdf/file.pdf";
try {
// Load the PDF document
PDDocument document = PDDocument.load(new File(filePath));
// Create an instance of Tesseract OCR engine
Tesseract tesseract = new Tesseract();
// Set the path to the tessdata directory (containing language data)
tesseract.setDatapath("path/to/your/tessdata/directory");
// Iterate over each page of the PDF document
for (int pageIndex = 0; pageIndex < document.getNumberOfPages(); pageIndex++) {
// Extract the text from the current page
PDFTextStripper stripper = new PDFTextStripper();
stripper.setStartPage(pageIndex + 1);
stripper.setEndPage(pageIndex + 1);
String pageText = stripper.getText(document);
// Perform OCR on the extracted text
String ocrText = tesseract.doOCR(pageText);
// Output the OCR result
System.out.println("Page " + (pageIndex + 1) + " OCR Result:");
System.out.println(ocrText);
System.out.println("--------------------------------------");
}
// Close the PDF document
document.close();
} catch (IOException | TesseractException e) {
e.printStackTrace();
}
}
}