Thư viện Java miễn phí để trích xuất văn bản OCR và phân tích tài liệu
Thư viện Java OCR nguồn mở để tích hợp khả năng OCR vào các ứng dụng Java và cho phép trích xuất văn bản từ hình ảnh cũng như tài liệu được quét.
Trong thời đại kỹ thuật số ngày nay, Nhận dạng ký tự quang học (OCR) đã trở thành một công cụ thiết yếu để trích xuất văn bản từ hình ảnh và tài liệu được quét. Công nghệ OCR cho phép chuyển đổi văn bản in hoặc viết tay thành dữ liệu có thể đọc được bằng máy, mở ra nhiều khả năng phân tích tài liệu, trích xuất dữ liệu và tự động hóa. Trong số nhiều giải pháp OCR hiện có, Tess4J nổi bật là một thư viện mã nguồn mở mạnh mẽ kết hợp tính linh hoạt của công cụ Tesseract OCR với tính đơn giản của lập trình Java.
Thư viện Tess4J trao quyền cho các nhà phát triển Java kết hợp các khả năng OCR một cách liền mạch vào các ứng dụng của họ. Đây là trình bao bọc Java cho Tesseract, một công cụ OCR ban đầu được Hewlett-Packard phát triển và hiện đang được Google duy trì. Tess4J tận dụng công cụ OCR của Tesseract, nổi tiếng về độ chính xác. Công cụ này sử dụng các thuật toán tiên tiến và kỹ thuật học máy để trích xuất văn bản đáng tin cậy từ hình ảnh, đảm bảo kết quả chất lượng cao. Nó cho phép tích hợp OCR trong các ứng dụng Java, giúp nó tương thích với các nền tảng khác nhau, bao gồm Windows, Linux và macOS.
Tess4J cung cấp một API đơn giản và được ghi chép đầy đủ, giúp các nhà phát triển dễ dàng tích hợp các khả năng OCR vào các ứng dụng Java của họ. Tess4J là một thư viện mã nguồn mở linh hoạt và mạnh mẽ, cho phép các nhà phát triển tích hợp các khả năng OCR mạnh mẽ vào các ứng dụng Java của họ. Với khả năng hỗ trợ nhiều ngôn ngữ, các tính năng xử lý trước hình ảnh, khả năng chuyển đổi PDF và hệ thống chấm điểm độ tin cậy, Tess4J cung cấp một giải pháp hiệu quả và đáng tin cậy để trích xuất văn bản và phân tích tài liệu.
Bắt đầu với Tess4J
Cách được khuyến nghị để cài đặt Tess4J là sử dụng Maven. Vui lòng sử dụng lệnh sau để cài đặt trơn tru.
Phụ thuộc Maven cho Tess4J
<dependencies>
<dependency>
<groupId>net.sourceforge.tess4j</groupId>
<artifactId>tess4j;/artifactId>
<version>X.X.X</version>
</dependency>
</dependencies>
Cài đặt Tess4J qua GitHub
git clone https://github.com/nguyenq/tess4j.git
Bạn cũng có thể cài đặt thủ công; tải xuống các tệp phát hành mới nhất trực tiếp từ kho lưu trữ GitHub.
Trích xuất nội dung thông qua Java API
Thư viện Tess4J nguồn mở cho phép các nhà phát triển phần mềm trích xuất văn bản từ nhiều loại hình ảnh khác nhau bên trong các ứng dụng Java. Thư viện cho phép trích xuất văn bản từ hình ảnh, cho phép các ứng dụng phân tích và xử lý nội dung văn bản. Khả năng này tìm thấy các ứng dụng trong các lĩnh vực như phân tích tình cảm, tóm tắt văn bản và truy xuất thông tin. Thư viện cũng giúp dễ dàng tải công cụ Tesseract OCR, thực hiện trích xuất nội dung trên hình ảnh đã chỉ định và in văn bản đã trích xuất vào bảng điều khiển.
Thực hiện trích xuất nội dung bằng thư viện Java OCR
import net.sourceforge.tess4j.Tesseract;
import net.sourceforge.tess4j.TesseractException;
public class ContentExtractionExample {
public static void main(String[] args) {
// Path to the Tesseract OCR installation directory
String tessDataPath = "path/to/tesseract";
// Initialize Tesseract instance
Tesseract tesseract = new Tesseract();
tesseract.setDatapath(tessDataPath);
try {
// Set the language for OCR (e.g., "eng" for English)
tesseract.setLanguage("eng");
// Path to the image file for content extraction
String imagePath = "path/to/image.jpg";
// Perform content extraction
String extractedText = tesseract.doOCR(new File(imagePath));
System.out.println(extractedText);
} catch (TesseractException e) {
e.printStackTrace();
}
}
}
Chuyển đổi PDF sang văn bản thuần túy thông qua Java API
Thư viện Tess4J nguồn mở đã cung cấp chức năng hoàn chỉnh để tải và chuyển đổi tài liệu PDF thành văn bản thuần túy bên trong các ứng dụng Java. Tess4J có thể chuyển đổi tài liệu PDF có thể tìm kiếm thành văn bản thuần túy, cho phép các nhà phát triển trích xuất nội dung từ các tệp PDF và thực hiện phân tích hoặc xử lý dữ liệu thêm. Ví dụ sau đây cho thấy cách các nhà phát triển phần mềm có thể chuyển đổi tệp PDF hiện có thành văn bản thuần túy bên trong các ứng dụng Java.
Làm thế nào để chuyển đổi một tệp PDF hiện có thành văn bản thuần túy?
import net.sourceforge.tess4j.Tesseract;
import net.sourceforge.tess4j.TesseractException;
import org.apache.pdfbox.pdmodel.PDDocument;
import org.apache.pdfbox.text.PDFTextStripper;
import java.io.File;
import java.io.IOException;
public class PDFToTextConverter {
public static void main(String[] args) {
// Path to the PDF file
String filePath = "path/to/your/pdf/file.pdf";
try {
// Load the PDF document
PDDocument document = PDDocument.load(new File(filePath));
// Create an instance of Tesseract OCR engine
Tesseract tesseract = new Tesseract();
// Set the path to the tessdata directory (containing language data)
tesseract.setDatapath("path/to/your/tessdata/directory");
// Iterate over each page of the PDF document
for (int pageIndex = 0; pageIndex < document.getNumberOfPages(); pageIndex++) {
// Extract the text from the current page
PDFTextStripper stripper = new PDFTextStripper();
stripper.setStartPage(pageIndex + 1);
stripper.setEndPage(pageIndex + 1);
String pageText = stripper.getText(document);
// Perform OCR on the extracted text
String ocrText = tesseract.doOCR(pageText);
// Output the OCR result
System.out.println("Page " + (pageIndex + 1) + " OCR Result:");
System.out.println(ocrText);
System.out.println("--------------------------------------");
}
// Close the PDF document
document.close();
} catch (IOException | TesseractException e) {
e.printStackTrace();
}
}
}