1. Produk
  2.   OCR
  3.   Java
  4.   Tess4J
 
  

Perpustakaan Java Gratis untuk Ekstraksi Teks OCR dan Analisis Dokumen

Perpustakaan OCR Java Sumber Terbuka untuk Memasukkan kemampuan OCR ke dalam aplikasi Java dan memungkinkan Mengekstraksi Teks dari Gambar serta Dokumen yang Dipindai.

Di era digital saat ini, Pengenalan Karakter Optik (OCR) telah menjadi alat penting untuk mengekstraksi teks dari gambar dan dokumen yang dipindai. Teknologi OCR memungkinkan konversi teks cetak atau tulisan tangan menjadi data yang dapat dibaca mesin, membuka banyak kemungkinan untuk analisis dokumen, ekstraksi data, dan otomatisasi. Di antara banyak solusi OCR yang tersedia, Tess4J menonjol sebagai perpustakaan sumber terbuka canggih yang menggabungkan keserbagunaan mesin Tesseract OCR dengan kesederhanaan pemrograman Java.

Pustaka Tess4J memberdayakan pengembang Java untuk menggabungkan kemampuan OCR dengan lancar ke dalam aplikasi mereka. Ini adalah pembungkus Java untuk Tesseract, mesin OCR yang awalnya dikembangkan oleh Hewlett-Packard dan saat ini dikelola oleh Google. Tess4J memanfaatkan mesin OCR Tesseract, yang terkenal karena akurasinya. Ini menggunakan algoritma canggih dan teknik pembelajaran mesin untuk mencapai ekstraksi teks yang andal dari gambar, memastikan hasil berkualitas tinggi. Ini memungkinkan integrasi OCR dalam aplikasi Java, sehingga kompatibel dengan berbagai platform, termasuk Windows, Linux, dan macOS.

Tess4J menyediakan API yang lugas dan terdokumentasi dengan baik, sehingga memudahkan pengembang untuk mengintegrasikan kemampuan OCR ke dalam aplikasi Java mereka. Tess4J adalah perpustakaan sumber terbuka serbaguna dan tangguh yang memberdayakan pengembang untuk mengintegrasikan kemampuan OCR yang kuat ke dalam aplikasi Java mereka. Dengan dukungan berbagai bahasa, fitur prapemrosesan gambar, kemampuan konversi PDF, dan sistem penilaian kepercayaan, Tess4J memberikan solusi yang efisien dan andal untuk ekstraksi teks dan analisis dokumen.

Previous Next

Memulai Tess4J

Cara yang disarankan untuk menginstal Tess4J adalah menggunakan Maven. Silakan gunakan perintah berikut untuk kelancaran instalasi.

Ketergantungan Maven untuk Tess4J


<dependencies>
	<dependency>
	<groupId>net.sourceforge.tess4j</groupId>
	<artifactId>tess4j;/artifactId>
	<version>X.X.X</version>
    </dependency>
</dependencies>

Instal Tess4J melalui GitHub

 git clone https://github.com/nguyenq/tess4j.git  

Anda juga dapat menginstalnya secara manual; unduh file rilis terbaru langsung dari repositori GitHub.

Ekstraksi Konten melalui Java API

Perpustakaan Tess4J sumber terbuka memungkinkan pengembang perangkat lunak mengekstrak teks dari berbagai jenis gambar di dalam aplikasi Java. Perpustakaan memungkinkan ekstraksi teks dari gambar, memungkinkan aplikasi menganalisis dan memproses konten tekstual. Kemampuan ini dapat diterapkan di berbagai bidang seperti analisis sentimen, peringkasan teks, dan pengambilan informasi. Pustaka juga memudahkan memuat mesin Tesseract OCR, melakukan ekstraksi konten pada gambar tertentu, dan mencetak teks yang diekstraksi ke konsol.

Lakukan Ekstraksi Konten menggunakan Java OCR Library

import net.sourceforge.tess4j.Tesseract;
import net.sourceforge.tess4j.TesseractException;

public class ContentExtractionExample {
    public static void main(String[] args) {
        // Path to the Tesseract OCR installation directory
        String tessDataPath = "path/to/tesseract";

        // Initialize Tesseract instance
        Tesseract tesseract = new Tesseract();
        tesseract.setDatapath(tessDataPath);

        try {
            // Set the language for OCR (e.g., "eng" for English)
            tesseract.setLanguage("eng");

            // Path to the image file for content extraction
            String imagePath = "path/to/image.jpg";

            // Perform content extraction
            String extractedText = tesseract.doOCR(new File(imagePath));
            System.out.println(extractedText);
        } catch (TesseractException e) {
            e.printStackTrace();
        }
    }
}

Konversi PDF ke Teks Biasa melalui Java API

Perpustakaan Tess4J sumber terbuka telah menyediakan fungsionalitas lengkap untuk memuat dan mengonversi dokumen PDF menjadi teks biasa di dalam aplikasi Java. Tess4J dapat mengubah dokumen PDF yang dapat dicari menjadi teks biasa, memungkinkan pengembang mengekstrak konten dari file PDF dan melakukan analisis atau pemrosesan data lebih lanjut. Contoh berikut menunjukkan, bagaimana pengembang perangkat lunak dapat mengonversi file PDF yang ada menjadi teks biasa di dalam aplikasi Java.

Bagaimana Mengonversi File PDF yang Ada menjadi Teks Biasa?

import net.sourceforge.tess4j.Tesseract;
import net.sourceforge.tess4j.TesseractException;
import org.apache.pdfbox.pdmodel.PDDocument;
import org.apache.pdfbox.text.PDFTextStripper;

import java.io.File;
import java.io.IOException;

public class PDFToTextConverter {
    public static void main(String[] args) {
        // Path to the PDF file
        String filePath = "path/to/your/pdf/file.pdf";

        try {
            // Load the PDF document
            PDDocument document = PDDocument.load(new File(filePath));

            // Create an instance of Tesseract OCR engine
            Tesseract tesseract = new Tesseract();

            // Set the path to the tessdata directory (containing language data)
            tesseract.setDatapath("path/to/your/tessdata/directory");

            // Iterate over each page of the PDF document
            for (int pageIndex = 0; pageIndex < document.getNumberOfPages(); pageIndex++) {
                // Extract the text from the current page
                PDFTextStripper stripper = new PDFTextStripper();
                stripper.setStartPage(pageIndex + 1);
                stripper.setEndPage(pageIndex + 1);
                String pageText = stripper.getText(document);

                // Perform OCR on the extracted text
                String ocrText = tesseract.doOCR(pageText);

                // Output the OCR result
                System.out.println("Page " + (pageIndex + 1) + " OCR Result:");
                System.out.println(ocrText);
                System.out.println("--------------------------------------");
            }

            // Close the PDF document
            document.close();
        } catch (IOException | TesseractException e) {
            e.printStackTrace();
        }
    }
}

 Indonesia