OCR Mətn Çıxarışı və Sənəd Təhlili üçün Pulsuz Java Kitabxanası

OCR imkanlarını Java proqramlarına daxil etmək üçün Açıq Mənbəli Java OCR Kitabxanası və Şəkillərdən, eləcə də Skan edilmiş Sənədlərdən Mətn çıxarmağa imkan verir.

Bugünkü rəqəmsal əsrdə Optik Xarakter Tanınması (OCR) şəkillərdən və skan edilmiş sənədlərdən mətn çıxarmaq üçün vacib vasitəyə çevrilib. OCR texnologiyası çap edilmiş və ya əl ilə yazılmış mətni maşın tərəfindən oxuna bilən məlumatlara çevirməyə imkan verir, sənədlərin təhlili, məlumatların çıxarılması və avtomatlaşdırılması üçün çoxsaylı imkanlar açır. Mövcud olan çoxsaylı OCR həlləri arasında Tess4J Tesseract OCR mühərrikinin çox yönlülüyünü Java proqramlaşdırmasının sadəliyi ilə birləşdirən güclü açıq mənbəli kitabxana kimi seçilir.

Tess4J kitabxanası Java tərtibatçılarına OCR imkanlarını problemsiz şəkildə tətbiqlərinə daxil etmək imkanı verir. Bu, ilk olaraq Hewlett-Packard tərəfindən hazırlanmış və hazırda Google tərəfindən saxlanılan OCR mühərriki olan Tesseract üçün Java paketidir. Tess4J, dəqiqliyi ilə tanınan Tesseract-ın OCR mühərrikindən istifadə edir. O, yüksək keyfiyyətli nəticələri təmin edərək, şəkillərdən etibarlı mətn çıxarılmasına nail olmaq üçün qabaqcıl alqoritmlərdən və maşın öyrənmə üsullarından istifadə edir. O, Java proqramlarında OCR inteqrasiyasına imkan verir və onu Windows, Linux və macOS daxil olmaqla müxtəlif platformalarla uyğunlaşdırır.

Tess4J sadə və yaxşı sənədləşdirilmiş API təmin edir, tərtibatçılara OCR imkanlarını Java proqramlarına inteqrasiya etməyi asanlaşdırır. Tess4J, tərtibatçılara güclü OCR imkanlarını Java proqramlarına inteqrasiya etməyə imkan verən çox yönlü və möhkəm açıq mənbəli kitabxanadır. Çoxlu dillərə dəstəyi, təsvirin ilkin işlənməsi xüsusiyyətləri, PDF-ə çevirmə imkanları və etibarlılıq qiymətləndirmə sistemi ilə Tess4J mətn çıxarmaq və sənəd təhlili üçün səmərəli və etibarlı həll yolu təqdim edir.

Bir Baxışda

Tess4J funksiyalarına ümumi baxış.

Xüsusiyyətlərə Baxış

OCR həyata keçirin
OCR Bacarıqları əlavə edin
Şəkil mətnini tanıyın
Mətnin konvet şəkilləri
Tanınan Şrift mətni
PDF axtarın
100-dən çox dil
OCR proqramları yaradın
Brauzerdə yadda saxla
Mətni çıxarın
Multi-Treading Dəstəyi

Tess4J

Tess4J aşağıda sadalanan məşhur şəkil faylı formatlarını dəstəkləyir.

Oxucu

PNG, JPEG, BMP, TIFF, TGA, DICOM

yazıçı

PNG, JPEG, BMP, TIFF

Tess4J

Platformanın Müstəqilliyi

Tess4J istənilən Java əsaslı proqramlaşdırma dili ilə işləyə bilər

Java

Tess4J

Tess4J ilə işə başlamaq

Tess4J-ni quraşdırmaq üçün tövsiyə olunan yol Maven-dən istifadə etməkdir. Düzgün quraşdırma üçün aşağıdakı əmrdən istifadə edin.

Tess4J üçün Maven asılılığı


<dependencies>
	<dependency>
	<groupId>net.sourceforge.tess4j</groupId>
	<artifactId>tess4j;/artifactId>
	<version>X.X.X</version>
    </dependency>
</dependencies>

GitHub vasitəsilə Tess4J quraşdırın

 git clone https://github.com/nguyenq/tess4j.git

Siz onu əl ilə də quraşdıra bilərsiniz; ən son buraxılış fayllarını birbaşa GitHub deposundan endirin.

Java API vasitəsilə məzmunun çıxarılması

Açıq mənbəli Tess4J kitabxanası proqram tərtibatçılarına Java proqramları daxilində müxtəlif növ şəkillərdən mətn çıxarmağa imkan verir. Kitabxana şəkillərdən mətn çıxarmağa, tətbiqlərə mətn məzmununu təhlil etməyə və emal etməyə imkan verir. Bu qabiliyyət hisslərin təhlili, mətnin ümumiləşdirilməsi və məlumat axtarışı kimi sahələrdə tətbiqləri tapır. Kitabxana həmçinin Tesseract OCR mühərrikini yükləməyi, göstərilən təsvirdə məzmun çıxarmağı və çıxarılan mətni konsola çap etməyi asanlaşdırır.

Java OCR Kitabxanasından istifadə edərək Məzmun Çıxarışını həyata keçirin

import net.sourceforge.tess4j.Tesseract;
import net.sourceforge.tess4j.TesseractException;

public class ContentExtractionExample {
    public static void main(String[] args) {
        // Path to the Tesseract OCR installation directory
        String tessDataPath = "path/to/tesseract";

        // Initialize Tesseract instance
        Tesseract tesseract = new Tesseract();
        tesseract.setDatapath(tessDataPath);

        try {
            // Set the language for OCR (e.g., "eng" for English)
            tesseract.setLanguage("eng");

            // Path to the image file for content extraction
            String imagePath = "path/to/image.jpg";

            // Perform content extraction
            String extractedText = tesseract.doOCR(new File(imagePath));
            System.out.println(extractedText);
        } catch (TesseractException e) {
            e.printStackTrace();
        }
    }
}

Java API vasitəsilə PDF-nin Düz Mətnə çevrilməsi

Açıq mənbəli Tess4J kitabxanası Java proqramları daxilində PDF sənədlərinin yüklənməsi və düz mətnə çevrilməsi üçün tam funksionallıq təmin etmişdir. Tess4J axtarış edilə bilən PDF sənədlərini düz mətnə çevirə bilər ki, bu da tərtibatçılara PDF fayllarından məzmun çıxarmağa və əlavə təhlil və ya məlumatların işlənməsini həyata keçirməyə imkan verir. Aşağıdakı nümunə proqram tərtibatçılarının mövcud PDF faylını Java proqramlarında düz mətnə necə çevirə biləcəyini göstərir.

Mövcud PDF faylını düz mətnə necə çevirmək olar?

import net.sourceforge.tess4j.Tesseract;
import net.sourceforge.tess4j.TesseractException;
import org.apache.pdfbox.pdmodel.PDDocument;
import org.apache.pdfbox.text.PDFTextStripper;

import java.io.File;
import java.io.IOException;

public class PDFToTextConverter {
    public static void main(String[] args) {
        // Path to the PDF file
        String filePath = "path/to/your/pdf/file.pdf";

        try {
            // Load the PDF document
            PDDocument document = PDDocument.load(new File(filePath));

            // Create an instance of Tesseract OCR engine
            Tesseract tesseract = new Tesseract();

            // Set the path to the tessdata directory (containing language data)
            tesseract.setDatapath("path/to/your/tessdata/directory");

            // Iterate over each page of the PDF document
            for (int pageIndex = 0; pageIndex < document.getNumberOfPages(); pageIndex++) {
                // Extract the text from the current page
                PDFTextStripper stripper = new PDFTextStripper();
                stripper.setStartPage(pageIndex + 1);
                stripper.setEndPage(pageIndex + 1);
                String pageText = stripper.getText(document);

                // Perform OCR on the extracted text
                String ocrText = tesseract.doOCR(pageText);

                // Output the OCR result
                System.out.println("Page " + (pageIndex + 1) + " OCR Result:");
                System.out.println(ocrText);
                System.out.println("--------------------------------------");
            }

            // Close the PDF document
            document.close();
        } catch (IOException | TesseractException e) {
            e.printStackTrace();
        }
    }
}