1. Produk
  2.   OCR
  3.   Java
  4.   Tess4J
 
  

Perpustakaan Java Percuma untuk Pengekstrakan Teks OCR dan Analisis Dokumen

Perpustakaan OCR Java Sumber Terbuka untuk Menggabungkan keupayaan OCR ke dalam aplikasi Java dan membenarkan Mengekstrak Teks daripada Imej serta Dokumen yang Diimbas.

Dalam era digital hari ini, Pengecaman Aksara Optik (OCR) telah menjadi alat penting untuk mengekstrak teks daripada imej dan dokumen yang diimbas. Teknologi OCR membolehkan penukaran teks bercetak atau tulisan tangan kepada data yang boleh dibaca mesin, membuka banyak kemungkinan untuk analisis dokumen, pengekstrakan data dan automasi. Di antara banyak penyelesaian OCR yang tersedia, Tess4J menonjol sebagai perpustakaan sumber terbuka yang berkuasa yang menggabungkan kepelbagaian enjin Tesseract OCR dengan kesederhanaan pengaturcaraan Java.

Pustaka Tess4J memperkasakan pembangun Java untuk menggabungkan keupayaan OCR dengan lancar ke dalam aplikasi mereka. Ia adalah pembalut Java untuk Tesseract, enjin OCR yang pada asalnya dibangunkan oleh Hewlett-Packard dan kini diselenggara oleh Google. Tess4J memanfaatkan enjin OCR Tesseract, yang terkenal dengan ketepatannya. Ia menggunakan algoritma lanjutan dan teknik pembelajaran mesin untuk mencapai pengekstrakan teks yang boleh dipercayai daripada imej, memastikan hasil yang berkualiti tinggi. Ia membolehkan penyepaduan OCR dalam aplikasi Java, menjadikannya serasi dengan platform yang berbeza, termasuk Windows, Linux dan macOS.

Tess4J menyediakan API yang ringkas dan didokumentasikan dengan baik, memudahkan pembangun untuk menyepadukan keupayaan OCR ke dalam aplikasi Java mereka. Tess4J ialah perpustakaan sumber terbuka yang serba boleh dan teguh yang memperkasakan pembangun untuk menyepadukan keupayaan OCR yang berkuasa ke dalam aplikasi Java mereka. Dengan sokongannya untuk berbilang bahasa, ciri prapemprosesan imej, keupayaan penukaran PDF dan sistem pemarkahan keyakinan, Tess4J menyediakan penyelesaian yang cekap dan boleh dipercayai untuk pengekstrakan teks dan analisis dokumen.

Previous Next

Bermula dengan Tess4J

Cara yang disyorkan untuk memasang Tess4J adalah menggunakan Maven. Sila gunakan arahan berikut untuk pemasangan yang lancar.

Ketergantungan Maven untuk Tess4J


<dependencies>
	<dependency>
	<groupId>net.sourceforge.tess4j</groupId>
	<artifactId>tess4j;/artifactId>
	<version>X.X.X</version>
    </dependency>
</dependencies>

Pasang Tess4J melalui GitHub

 git clone https://github.com/nguyenq/tess4j.git  

You can also install it manually; download the latest release files directly from GitHub repository.

Pengeluaran Kandungan melalui Java API

Pustaka Tess4J sumber terbuka membenarkan pembangun perisian mengekstrak teks daripada pelbagai jenis imej dalam aplikasi Java. Perpustakaan membolehkan pengekstrakan teks daripada imej, membolehkan aplikasi menganalisis dan memproses kandungan teks. Keupayaan ini menemui aplikasi dalam bidang seperti analisis sentimen, ringkasan teks dan mendapatkan maklumat. Perpustakaan juga memudahkan untuk memuatkan enjin Tesseract OCR, melakukan pengekstrakan kandungan pada imej yang ditentukan dan mencetak teks yang diekstrak ke konsol.

Lakukan Pengekstrakan Kandungan menggunakan Pustaka OCR Java

import net.sourceforge.tess4j.Tesseract;
import net.sourceforge.tess4j.TesseractException;

public class ContentExtractionExample {
    public static void main(String[] args) {
        // Path to the Tesseract OCR installation directory
        String tessDataPath = "path/to/tesseract";

        // Initialize Tesseract instance
        Tesseract tesseract = new Tesseract();
        tesseract.setDatapath(tessDataPath);

        try {
            // Set the language for OCR (e.g., "eng" for English)
            tesseract.setLanguage("eng");

            // Path to the image file for content extraction
            String imagePath = "path/to/image.jpg";

            // Perform content extraction
            String extractedText = tesseract.doOCR(new File(imagePath));
            System.out.println(extractedText);
        } catch (TesseractException e) {
            e.printStackTrace();
        }
    }
}

Penukaran PDF kepada Teks Biasa melalui Java API

Pustaka Tess4J sumber terbuka telah menyediakan kefungsian lengkap untuk memuatkan dan menukar dokumen PDF kepada teks biasa dalam aplikasi Java. Tess4J boleh menukar dokumen PDF yang boleh dicari kepada teks biasa, membolehkan pembangun mengekstrak kandungan daripada fail PDF dan melakukan analisis lanjut atau pemprosesan data. Contoh berikut menunjukkan, cara pembangun perisian boleh menukar fail PDF sedia ada kepada teks biasa dalam aplikasi Java.

Bagaimana untuk Menukar Fail PDF Sedia Ada kepada Teks Biasa?

import net.sourceforge.tess4j.Tesseract;
import net.sourceforge.tess4j.TesseractException;
import org.apache.pdfbox.pdmodel.PDDocument;
import org.apache.pdfbox.text.PDFTextStripper;

import java.io.File;
import java.io.IOException;

public class PDFToTextConverter {
    public static void main(String[] args) {
        // Path to the PDF file
        String filePath = "path/to/your/pdf/file.pdf";

        try {
            // Load the PDF document
            PDDocument document = PDDocument.load(new File(filePath));

            // Create an instance of Tesseract OCR engine
            Tesseract tesseract = new Tesseract();

            // Set the path to the tessdata directory (containing language data)
            tesseract.setDatapath("path/to/your/tessdata/directory");

            // Iterate over each page of the PDF document
            for (int pageIndex = 0; pageIndex < document.getNumberOfPages(); pageIndex++) {
                // Extract the text from the current page
                PDFTextStripper stripper = new PDFTextStripper();
                stripper.setStartPage(pageIndex + 1);
                stripper.setEndPage(pageIndex + 1);
                String pageText = stripper.getText(document);

                // Perform OCR on the extracted text
                String ocrText = tesseract.doOCR(pageText);

                // Output the OCR result
                System.out.println("Page " + (pageIndex + 1) + " OCR Result:");
                System.out.println(ocrText);
                System.out.println("--------------------------------------");
            }

            // Close the PDF document
            document.close();
        } catch (IOException | TesseractException e) {
            e.printStackTrace();
        }
    }
}

 Melayu