1. পণ্য
  2.   OCR
  3.   Java
  4.   Tess4J
 
  

OCR পাঠ্য নিষ্কাশন এবং নথি বিশ্লেষণের জন্য বিনামূল্যে জাভা লাইব্রেরি

ওপেন সোর্স জাভা ওসিআর লাইব্রেরি জাভা অ্যাপগুলিতে ওসিআর ক্ষমতাগুলি অন্তর্ভুক্ত করার জন্য এবং ছবিগুলির পাশাপাশি স্ক্যান করা নথিগুলি থেকে পাঠ্য বের করার অনুমতি দেয়।

আজকের ডিজিটাল যুগে, অপটিক্যাল ক্যারেক্টার রিকগনিশন (OCR) ইমেজ এবং স্ক্যান করা ডকুমেন্ট থেকে টেক্সট বের করার জন্য একটি অপরিহার্য টুল হয়ে উঠেছে। ওসিআর প্রযুক্তি মুদ্রিত বা হাতে লেখা পাঠ্যকে মেশিন-পাঠযোগ্য ডেটাতে রূপান্তর করতে সক্ষম করে, ডকুমেন্ট বিশ্লেষণ, ডেটা নিষ্কাশন এবং অটোমেশনের জন্য অসংখ্য সম্ভাবনা উন্মুক্ত করে। উপলব্ধ অনেকগুলি OCR সমাধানগুলির মধ্যে, Tess4J একটি শক্তিশালী ওপেন-সোর্স লাইব্রেরি হিসাবে দাঁড়িয়েছে যা জাভা প্রোগ্রামিংয়ের সরলতার সাথে টেসার্যাক্ট ওসিআর ইঞ্জিনের বহুমুখিতাকে একত্রিত করে৷

Tess4J লাইব্রেরি জাভা ডেভেলপারদের ওসিআর ক্ষমতাগুলিকে তাদের অ্যাপ্লিকেশনগুলিতে নির্বিঘ্নে অন্তর্ভুক্ত করার ক্ষমতা দেয়৷ এটি Tesseract-এর জন্য একটি জাভা র‍্যাপার, একটি OCR ইঞ্জিন যা মূলত Hewlett-Packard দ্বারা তৈরি এবং বর্তমানে Google দ্বারা রক্ষণাবেক্ষণ করা হয়েছে। Tess4J Tesseract-এর OCR ইঞ্জিনের ব্যবহার করে, যা তার নির্ভুলতার জন্য বিখ্যাত। এটি উচ্চ-মানের ফলাফল নিশ্চিত করে, ছবি থেকে নির্ভরযোগ্য পাঠ্য নিষ্কাশন অর্জনের জন্য উন্নত অ্যালগরিদম এবং মেশিন লার্নিং কৌশল নিয়োগ করে। এটি জাভা অ্যাপ্লিকেশানগুলিতে OCR ইন্টিগ্রেশন সক্ষম করে, এটিকে Windows, Linux, এবং macOS সহ বিভিন্ন প্ল্যাটফর্মের সাথে সামঞ্জস্যপূর্ণ করে তোলে৷

Tess4J একটি সহজবোধ্য এবং ভাল-ডকুমেন্টেড API প্রদান করে, যা ডেভেলপারদের তাদের জাভা অ্যাপ্লিকেশনগুলিতে OCR ক্ষমতাগুলিকে একীভূত করা সহজ করে তোলে। Tess4J হল একটি বহুমুখী এবং শক্তিশালী ওপেন সোর্স লাইব্রেরি যা ডেভেলপারদের তাদের জাভা অ্যাপ্লিকেশনগুলিতে শক্তিশালী OCR ক্ষমতাগুলিকে একীভূত করার ক্ষমতা দেয়৷ একাধিক ভাষা, ইমেজ প্রিপ্রসেসিং বৈশিষ্ট্য, পিডিএফ রূপান্তর ক্ষমতা এবং আত্মবিশ্বাস স্কোরিং সিস্টেমের সমর্থন সহ, Tess4J পাঠ্য নিষ্কাশন এবং নথি বিশ্লেষণের জন্য একটি দক্ষ এবং নির্ভরযোগ্য সমাধান প্রদান করে।

Previous Next

Tess4J দিয়ে শুরু করা

Tess4J ইনস্টল করার প্রস্তাবিত উপায় হল Maven ব্যবহার করা। একটি মসৃণ ইনস্টলেশনের জন্য অনুগ্রহ করে নিম্নলিখিত কমান্ডটি ব্যবহার করুন।

Tess4J এর জন্য Maven নির্ভরতা


<dependencies>
	<dependency>
	<groupId>net.sourceforge.tess4j</groupId>
	<artifactId>tess4j;/artifactId>
	<version>X.X.X</version>
    </dependency>
</dependencies>

GitHub এর মাধ্যমে Tess4J ইনস্টল করুন

 git clone https://github.com/nguyenq/tess4j.git  

আপনি নিজেও এটি ইনস্টল করতে পারেন; সরাসরি GitHub সংগ্রহস্থল থেকে সর্বশেষ রিলিজ ফাইল ডাউনলোড করুন।

জাভা API এর মাধ্যমে সামগ্রী নিষ্কাশন

ওপেন সোর্স Tess4J লাইব্রেরি সফ্টওয়্যার ডেভেলপারদের জাভা অ্যাপ্লিকেশানের মধ্যে বিভিন্ন ধরনের ছবি থেকে পাঠ্য বের করতে দেয়। লাইব্রেরিটি চিত্র থেকে পাঠ্য নিষ্কাশন সক্ষম করে, অ্যাপ্লিকেশনগুলিকে পাঠ্য বিষয়বস্তু বিশ্লেষণ এবং প্রক্রিয়া করতে সক্ষম করে। এই ক্ষমতাটি অনুভূতি বিশ্লেষণ, পাঠ্য সংক্ষিপ্তকরণ এবং তথ্য পুনরুদ্ধারের মতো ক্ষেত্রে অ্যাপ্লিকেশন খুঁজে পায়। লাইব্রেরিটি Tesseract OCR ইঞ্জিন লোড করা, নির্দিষ্ট চিত্রের বিষয়বস্তু নিষ্কাশন করা এবং এক্সট্রাক্ট করা পাঠ্য কনসোলে প্রিন্ট করা সহজ করে তোলে।

জাভা ওসিআর লাইব্রেরি ব্যবহার করে সামগ্রী নিষ্কাশন সম্পাদন করুন

import net.sourceforge.tess4j.Tesseract;
import net.sourceforge.tess4j.TesseractException;

public class ContentExtractionExample {
    public static void main(String[] args) {
        // Path to the Tesseract OCR installation directory
        String tessDataPath = "path/to/tesseract";

        // Initialize Tesseract instance
        Tesseract tesseract = new Tesseract();
        tesseract.setDatapath(tessDataPath);

        try {
            // Set the language for OCR (e.g., "eng" for English)
            tesseract.setLanguage("eng");

            // Path to the image file for content extraction
            String imagePath = "path/to/image.jpg";

            // Perform content extraction
            String extractedText = tesseract.doOCR(new File(imagePath));
            System.out.println(extractedText);
        } catch (TesseractException e) {
            e.printStackTrace();
        }
    }
}

জাভা API এর মাধ্যমে প্লেইন টেক্সটে পিডিএফ রূপান্তর

ওপেন সোর্স Tess4J লাইব্রেরি জাভা অ্যাপ্লিকেশনের ভিতরে পিডিএফ ডকুমেন্টগুলিকে একটি প্লেইন টেক্সটে লোড এবং রূপান্তর করার জন্য সম্পূর্ণ কার্যকারিতা প্রদান করেছে। Tess4J অনুসন্ধানযোগ্য PDF নথিগুলিকে প্লেইন টেক্সটে রূপান্তর করতে পারে, যা ডেভেলপারদের PDF ফাইলগুলি থেকে সামগ্রী বের করতে এবং আরও বিশ্লেষণ বা ডেটা প্রক্রিয়াকরণ করতে সক্ষম করে৷ নিম্নলিখিত উদাহরণ দেখায়, কীভাবে সফ্টওয়্যার বিকাশকারীরা জাভা অ্যাপ্লিকেশনগুলির মধ্যে একটি বিদ্যমান পিডিএফ ফাইলকে প্লেইন টেক্সটে রূপান্তর করতে পারে৷

কীভাবে একটি বিদ্যমান পিডিএফ ফাইলকে প্লেইন টেক্সটে রূপান্তর করবেন?

import net.sourceforge.tess4j.Tesseract;
import net.sourceforge.tess4j.TesseractException;
import org.apache.pdfbox.pdmodel.PDDocument;
import org.apache.pdfbox.text.PDFTextStripper;

import java.io.File;
import java.io.IOException;

public class PDFToTextConverter {
    public static void main(String[] args) {
        // Path to the PDF file
        String filePath = "path/to/your/pdf/file.pdf";

        try {
            // Load the PDF document
            PDDocument document = PDDocument.load(new File(filePath));

            // Create an instance of Tesseract OCR engine
            Tesseract tesseract = new Tesseract();

            // Set the path to the tessdata directory (containing language data)
            tesseract.setDatapath("path/to/your/tessdata/directory");

            // Iterate over each page of the PDF document
            for (int pageIndex = 0; pageIndex < document.getNumberOfPages(); pageIndex++) {
                // Extract the text from the current page
                PDFTextStripper stripper = new PDFTextStripper();
                stripper.setStartPage(pageIndex + 1);
                stripper.setEndPage(pageIndex + 1);
                String pageText = stripper.getText(document);

                // Perform OCR on the extracted text
                String ocrText = tesseract.doOCR(pageText);

                // Output the OCR result
                System.out.println("Page " + (pageIndex + 1) + " OCR Result:");
                System.out.println(ocrText);
                System.out.println("--------------------------------------");
            }

            // Close the PDF document
            document.close();
        } catch (IOException | TesseractException e) {
            e.printStackTrace();
        }
    }
}

 বাংলা