Thư viện Java miễn phí để trích xuất văn bản OCR và phân tích tài liệu

Thư viện Java OCR nguồn mở để tích hợp khả năng OCR vào các ứng dụng Java và cho phép trích xuất văn bản từ hình ảnh cũng như tài liệu được quét.

Trong thời đại kỹ thuật số ngày nay, Nhận dạng ký tự quang học (OCR) đã trở thành một công cụ thiết yếu để trích xuất văn bản từ hình ảnh và tài liệu được quét. Công nghệ OCR cho phép chuyển đổi văn bản in hoặc viết tay thành dữ liệu có thể đọc được bằng máy, mở ra nhiều khả năng phân tích tài liệu, trích xuất dữ liệu và tự động hóa. Trong số nhiều giải pháp OCR hiện có, Tess4J nổi bật là một thư viện mã nguồn mở mạnh mẽ kết hợp tính linh hoạt của công cụ Tesseract OCR với tính đơn giản của lập trình Java.

Thư viện Tess4J trao quyền cho các nhà phát triển Java kết hợp các khả năng OCR một cách liền mạch vào các ứng dụng của họ. Đây là trình bao bọc Java cho Tesseract, một công cụ OCR ban đầu được Hewlett-Packard phát triển và hiện đang được Google duy trì. Tess4J tận dụng công cụ OCR của Tesseract, nổi tiếng về độ chính xác. Công cụ này sử dụng các thuật toán tiên tiến và kỹ thuật học máy để trích xuất văn bản đáng tin cậy từ hình ảnh, đảm bảo kết quả chất lượng cao. Nó cho phép tích hợp OCR trong các ứng dụng Java, giúp nó tương thích với các nền tảng khác nhau, bao gồm Windows, Linux và macOS.

Tess4J cung cấp một API đơn giản và được ghi chép đầy đủ, giúp các nhà phát triển dễ dàng tích hợp các khả năng OCR vào các ứng dụng Java của họ. Tess4J là một thư viện mã nguồn mở linh hoạt và mạnh mẽ, cho phép các nhà phát triển tích hợp các khả năng OCR mạnh mẽ vào các ứng dụng Java của họ. Với khả năng hỗ trợ nhiều ngôn ngữ, các tính năng xử lý trước hình ảnh, khả năng chuyển đổi PDF và hệ thống chấm điểm độ tin cậy, Tess4J cung cấp một giải pháp hiệu quả và đáng tin cậy để trích xuất văn bản và phân tích tài liệu.

Previous Next

Bắt đầu với Tess4J

Cách được khuyến nghị để cài đặt Tess4J là sử dụng Maven. Vui lòng sử dụng lệnh sau để cài đặt trơn tru.

Phụ thuộc Maven cho Tess4J


<dependencies>
	<dependency>
	<groupId>net.sourceforge.tess4j</groupId>
	<artifactId>tess4j;/artifactId>
	<version>X.X.X</version>
    </dependency>
</dependencies>

Cài đặt Tess4J qua GitHub

 git clone https://github.com/nguyenq/tess4j.git  

Bạn cũng có thể cài đặt thủ công; tải xuống các tệp phát hành mới nhất trực tiếp từ kho lưu trữ GitHub.

Trích xuất nội dung thông qua Java API

Thư viện Tess4J nguồn mở cho phép các nhà phát triển phần mềm trích xuất văn bản từ nhiều loại hình ảnh khác nhau bên trong các ứng dụng Java. Thư viện cho phép trích xuất văn bản từ hình ảnh, cho phép các ứng dụng phân tích và xử lý nội dung văn bản. Khả năng này tìm thấy các ứng dụng trong các lĩnh vực như phân tích tình cảm, tóm tắt văn bản và truy xuất thông tin. Thư viện cũng giúp dễ dàng tải công cụ Tesseract OCR, thực hiện trích xuất nội dung trên hình ảnh đã chỉ định và in văn bản đã trích xuất vào bảng điều khiển.

Thực hiện trích xuất nội dung bằng thư viện Java OCR

import net.sourceforge.tess4j.Tesseract;
import net.sourceforge.tess4j.TesseractException;

public class ContentExtractionExample {
    public static void main(String[] args) {
        // Path to the Tesseract OCR installation directory
        String tessDataPath = "path/to/tesseract";

        // Initialize Tesseract instance
        Tesseract tesseract = new Tesseract();
        tesseract.setDatapath(tessDataPath);

        try {
            // Set the language for OCR (e.g., "eng" for English)
            tesseract.setLanguage("eng");

            // Path to the image file for content extraction
            String imagePath = "path/to/image.jpg";

            // Perform content extraction
            String extractedText = tesseract.doOCR(new File(imagePath));
            System.out.println(extractedText);
        } catch (TesseractException e) {
            e.printStackTrace();
        }
    }
}

Chuyển đổi PDF sang văn bản thuần túy thông qua Java API

Thư viện Tess4J nguồn mở đã cung cấp chức năng hoàn chỉnh để tải và chuyển đổi tài liệu PDF thành văn bản thuần túy bên trong các ứng dụng Java. Tess4J có thể chuyển đổi tài liệu PDF có thể tìm kiếm thành văn bản thuần túy, cho phép các nhà phát triển trích xuất nội dung từ các tệp PDF và thực hiện phân tích hoặc xử lý dữ liệu thêm. Ví dụ sau đây cho thấy cách các nhà phát triển phần mềm có thể chuyển đổi tệp PDF hiện có thành văn bản thuần túy bên trong các ứng dụng Java.

Làm thế nào để chuyển đổi một tệp PDF hiện có thành văn bản thuần túy?

import net.sourceforge.tess4j.Tesseract;
import net.sourceforge.tess4j.TesseractException;
import org.apache.pdfbox.pdmodel.PDDocument;
import org.apache.pdfbox.text.PDFTextStripper;

import java.io.File;
import java.io.IOException;

public class PDFToTextConverter {
    public static void main(String[] args) {
        // Path to the PDF file
        String filePath = "path/to/your/pdf/file.pdf";

        try {
            // Load the PDF document
            PDDocument document = PDDocument.load(new File(filePath));

            // Create an instance of Tesseract OCR engine
            Tesseract tesseract = new Tesseract();

            // Set the path to the tessdata directory (containing language data)
            tesseract.setDatapath("path/to/your/tessdata/directory");

            // Iterate over each page of the PDF document
            for (int pageIndex = 0; pageIndex < document.getNumberOfPages(); pageIndex++) {
                // Extract the text from the current page
                PDFTextStripper stripper = new PDFTextStripper();
                stripper.setStartPage(pageIndex + 1);
                stripper.setEndPage(pageIndex + 1);
                String pageText = stripper.getText(document);

                // Perform OCR on the extracted text
                String ocrText = tesseract.doOCR(pageText);

                // Output the OCR result
                System.out.println("Page " + (pageIndex + 1) + " OCR Result:");
                System.out.println(ocrText);
                System.out.println("--------------------------------------");
            }

            // Close the PDF document
            document.close();
        } catch (IOException | TesseractException e) {
            e.printStackTrace();
        }
    }
}

 Tiếng Việt