OCR Mətn Çıxarışı və Sənəd Təhlili üçün Pulsuz Java Kitabxanası
OCR imkanlarını Java proqramlarına daxil etmək üçün Açıq Mənbəli Java OCR Kitabxanası və Şəkillərdən, eləcə də Skan edilmiş Sənədlərdən Mətn çıxarmağa imkan verir.
Bugünkü rəqəmsal əsrdə Optik Xarakter Tanınması (OCR) şəkillərdən və skan edilmiş sənədlərdən mətn çıxarmaq üçün vacib vasitəyə çevrilib. OCR texnologiyası çap edilmiş və ya əl ilə yazılmış mətni maşın tərəfindən oxuna bilən məlumatlara çevirməyə imkan verir, sənədlərin təhlili, məlumatların çıxarılması və avtomatlaşdırılması üçün çoxsaylı imkanlar açır. Mövcud olan çoxsaylı OCR həlləri arasında Tess4J Tesseract OCR mühərrikinin çox yönlülüyünü Java proqramlaşdırmasının sadəliyi ilə birləşdirən güclü açıq mənbəli kitabxana kimi seçilir.
Tess4J kitabxanası Java tərtibatçılarına OCR imkanlarını problemsiz şəkildə tətbiqlərinə daxil etmək imkanı verir. Bu, ilk olaraq Hewlett-Packard tərəfindən hazırlanmış və hazırda Google tərəfindən saxlanılan OCR mühərriki olan Tesseract üçün Java paketidir. Tess4J, dəqiqliyi ilə tanınan Tesseract-ın OCR mühərrikindən istifadə edir. O, yüksək keyfiyyətli nəticələri təmin edərək, şəkillərdən etibarlı mətn çıxarılmasına nail olmaq üçün qabaqcıl alqoritmlərdən və maşın öyrənmə üsullarından istifadə edir. O, Java proqramlarında OCR inteqrasiyasına imkan verir və onu Windows, Linux və macOS daxil olmaqla müxtəlif platformalarla uyğunlaşdırır.
Tess4J sadə və yaxşı sənədləşdirilmiş API təmin edir, tərtibatçılara OCR imkanlarını Java proqramlarına inteqrasiya etməyi asanlaşdırır. Tess4J, tərtibatçılara güclü OCR imkanlarını Java proqramlarına inteqrasiya etməyə imkan verən çox yönlü və möhkəm açıq mənbəli kitabxanadır. Çoxlu dillərə dəstəyi, təsvirin ilkin işlənməsi xüsusiyyətləri, PDF-ə çevirmə imkanları və etibarlılıq qiymətləndirmə sistemi ilə Tess4J mətn çıxarmaq və sənəd təhlili üçün səmərəli və etibarlı həll yolu təqdim edir.
Tess4J ilə işə başlamaq
Tess4J-ni quraşdırmaq üçün tövsiyə olunan yol Maven-dən istifadə etməkdir. Düzgün quraşdırma üçün aşağıdakı əmrdən istifadə edin.
Tess4J üçün Maven asılılığı
<dependencies>
<dependency>
<groupId>net.sourceforge.tess4j</groupId>
<artifactId>tess4j;/artifactId>
<version>X.X.X</version>
</dependency>
</dependencies>
GitHub vasitəsilə Tess4J quraşdırın
git clone https://github.com/nguyenq/tess4j.git
Siz onu əl ilə də quraşdıra bilərsiniz; ən son buraxılış fayllarını birbaşa GitHub deposundan endirin.
Java API vasitəsilə məzmunun çıxarılması
Açıq mənbəli Tess4J kitabxanası proqram tərtibatçılarına Java proqramları daxilində müxtəlif növ şəkillərdən mətn çıxarmağa imkan verir. Kitabxana şəkillərdən mətn çıxarmağa, tətbiqlərə mətn məzmununu təhlil etməyə və emal etməyə imkan verir. Bu qabiliyyət hisslərin təhlili, mətnin ümumiləşdirilməsi və məlumat axtarışı kimi sahələrdə tətbiqləri tapır. Kitabxana həmçinin Tesseract OCR mühərrikini yükləməyi, göstərilən təsvirdə məzmun çıxarmağı və çıxarılan mətni konsola çap etməyi asanlaşdırır.
Java OCR Kitabxanasından istifadə edərək Məzmun Çıxarışını həyata keçirin
import net.sourceforge.tess4j.Tesseract;
import net.sourceforge.tess4j.TesseractException;
public class ContentExtractionExample {
public static void main(String[] args) {
// Path to the Tesseract OCR installation directory
String tessDataPath = "path/to/tesseract";
// Initialize Tesseract instance
Tesseract tesseract = new Tesseract();
tesseract.setDatapath(tessDataPath);
try {
// Set the language for OCR (e.g., "eng" for English)
tesseract.setLanguage("eng");
// Path to the image file for content extraction
String imagePath = "path/to/image.jpg";
// Perform content extraction
String extractedText = tesseract.doOCR(new File(imagePath));
System.out.println(extractedText);
} catch (TesseractException e) {
e.printStackTrace();
}
}
}
Java API vasitəsilə PDF-nin Düz Mətnə çevrilməsi
Açıq mənbəli Tess4J kitabxanası Java proqramları daxilində PDF sənədlərinin yüklənməsi və düz mətnə çevrilməsi üçün tam funksionallıq təmin etmişdir. Tess4J axtarış edilə bilən PDF sənədlərini düz mətnə çevirə bilər ki, bu da tərtibatçılara PDF fayllarından məzmun çıxarmağa və əlavə təhlil və ya məlumatların işlənməsini həyata keçirməyə imkan verir. Aşağıdakı nümunə proqram tərtibatçılarının mövcud PDF faylını Java proqramlarında düz mətnə necə çevirə biləcəyini göstərir.
Mövcud PDF faylını düz mətnə necə çevirmək olar?
import net.sourceforge.tess4j.Tesseract;
import net.sourceforge.tess4j.TesseractException;
import org.apache.pdfbox.pdmodel.PDDocument;
import org.apache.pdfbox.text.PDFTextStripper;
import java.io.File;
import java.io.IOException;
public class PDFToTextConverter {
public static void main(String[] args) {
// Path to the PDF file
String filePath = "path/to/your/pdf/file.pdf";
try {
// Load the PDF document
PDDocument document = PDDocument.load(new File(filePath));
// Create an instance of Tesseract OCR engine
Tesseract tesseract = new Tesseract();
// Set the path to the tessdata directory (containing language data)
tesseract.setDatapath("path/to/your/tessdata/directory");
// Iterate over each page of the PDF document
for (int pageIndex = 0; pageIndex < document.getNumberOfPages(); pageIndex++) {
// Extract the text from the current page
PDFTextStripper stripper = new PDFTextStripper();
stripper.setStartPage(pageIndex + 1);
stripper.setEndPage(pageIndex + 1);
String pageText = stripper.getText(document);
// Perform OCR on the extracted text
String ocrText = tesseract.doOCR(pageText);
// Output the OCR result
System.out.println("Page " + (pageIndex + 1) + " OCR Result:");
System.out.println(ocrText);
System.out.println("--------------------------------------");
}
// Close the PDF document
document.close();
} catch (IOException | TesseractException e) {
e.printStackTrace();
}
}
}