1. Товары
  2.   OCR
  3.   Java
  4.   Tess4J
 
  

Бесплатная библиотека Java для извлечения текста OCR и анализа документов

Библиотека Java OCR с открытым исходным кодом для включения возможностей OCR в приложения Java и позволяет извлекать текст из изображений, а также отсканированных документов.

В современную цифровую эпоху оптическое распознавание символов (OCR) стало важным инструментом для извлечения текста из изображений и отсканированных документов. Технология оптического распознавания символов позволяет преобразовывать печатный или рукописный текст в машиночитаемые данные, открывая многочисленные возможности для анализа документов, извлечения данных и автоматизации. Среди множества доступных решений OCR Tess4J выделяется как мощная библиотека с открытым исходным кодом, сочетающая в себе универсальность механизма OCR Tesseract с простотой программирования на Java.

Библиотека Tess4J позволяет разработчикам Java легко включать возможности оптического распознавания символов в свои приложения. Это Java-оболочка для Tesseract, механизма оптического распознавания символов, первоначально разработанного Hewlett-Packard и в настоящее время поддерживаемого Google. Tess4J использует механизм оптического распознавания символов Tesseract, известный своей точностью. Он использует передовые алгоритмы и методы машинного обучения для надежного извлечения текста из изображений и обеспечения высококачественных результатов. Он обеспечивает интеграцию OCR в приложения Java, что делает его совместимым с различными платформами, включая Windows, Linux и macOS.

Tess4J предоставляет простой и хорошо документированный API, позволяющий разработчикам легко интегрировать возможности оптического распознавания текста в свои приложения Java. Tess4J — это универсальная и надежная библиотека с открытым исходным кодом, которая позволяет разработчикам интегрировать мощные возможности оптического распознавания символов в свои Java-приложения. Благодаря поддержке нескольких языков, функциям предварительной обработки изображений, возможностям преобразования PDF и системе оценки достоверности Tess4J обеспечивает эффективное и надежное решение для извлечения текста и анализа документов.

Previous Next

Начало работы с Tess4J

Рекомендуемый способ установки Tess4J — использование Maven. Пожалуйста, используйте следующую команду для плавной установки.

Зависимость Maven для Tess4J


<dependencies>
	<dependency>
	<groupId>net.sourceforge.tess4j</groupId>
	<artifactId>tess4j;/artifactId>
	<version>X.X.X</version>
    </dependency>
</dependencies>

Установите Tess4J через GitHub

 git clone https://github.com/nguyenq/tess4j.git  

Вы также можете установить его вручную; загрузите файлы последней версии непосредственно из репозитория GitHub.

Извлечение контента через Java API

Библиотека Tess4J с открытым исходным кодом позволяет разработчикам программного обеспечения извлекать текст из изображений различных типов внутри приложений Java. Библиотека позволяет извлекать текст из изображений, позволяя приложениям анализировать и обрабатывать текстовый контент. Эта возможность находит применение в таких областях, как анализ настроений, обобщение текста и поиск информации. Библиотека также позволяет легко загрузить механизм OCR Tesseract, выполнить извлечение содержимого указанного изображения и вывести извлеченный текст на консоль.

Извлечение контента с помощью библиотеки Java OCR

import net.sourceforge.tess4j.Tesseract;
import net.sourceforge.tess4j.TesseractException;

public class ContentExtractionExample {
    public static void main(String[] args) {
        // Path to the Tesseract OCR installation directory
        String tessDataPath = "path/to/tesseract";

        // Initialize Tesseract instance
        Tesseract tesseract = new Tesseract();
        tesseract.setDatapath(tessDataPath);

        try {
            // Set the language for OCR (e.g., "eng" for English)
            tesseract.setLanguage("eng");

            // Path to the image file for content extraction
            String imagePath = "path/to/image.jpg";

            // Perform content extraction
            String extractedText = tesseract.doOCR(new File(imagePath));
            System.out.println(extractedText);
        } catch (TesseractException e) {
            e.printStackTrace();
        }
    }
}

Преобразование PDF в обычный текст через Java API

Библиотека Tess4J с открытым исходным кодом предоставляет полную функциональность для загрузки и преобразования PDF-документов в обычный текст внутри приложений Java. Tess4J может конвертировать PDF-документы с возможностью поиска в обычный текст, позволяя разработчикам извлекать контент из PDF-файлов и выполнять дальнейший анализ или обработку данных. В следующем примере показано, как разработчики программного обеспечения могут преобразовать существующий PDF-файл в обычный текст внутри приложений Java.

s

Как преобразовать существующий PDF-файл в обычный текст?

import net.sourceforge.tess4j.Tesseract;
import net.sourceforge.tess4j.TesseractException;
import org.apache.pdfbox.pdmodel.PDDocument;
import org.apache.pdfbox.text.PDFTextStripper;

import java.io.File;
import java.io.IOException;

public class PDFToTextConverter {
    public static void main(String[] args) {
        // Path to the PDF file
        String filePath = "path/to/your/pdf/file.pdf";

        try {
            // Load the PDF document
            PDDocument document = PDDocument.load(new File(filePath));

            // Create an instance of Tesseract OCR engine
            Tesseract tesseract = new Tesseract();

            // Set the path to the tessdata directory (containing language data)
            tesseract.setDatapath("path/to/your/tessdata/directory");

            // Iterate over each page of the PDF document
            for (int pageIndex = 0; pageIndex < document.getNumberOfPages(); pageIndex++) {
                // Extract the text from the current page
                PDFTextStripper stripper = new PDFTextStripper();
                stripper.setStartPage(pageIndex + 1);
                stripper.setEndPage(pageIndex + 1);
                String pageText = stripper.getText(document);

                // Perform OCR on the extracted text
                String ocrText = tesseract.doOCR(pageText);

                // Output the OCR result
                System.out.println("Page " + (pageIndex + 1) + " OCR Result:");
                System.out.println(ocrText);
                System.out.println("--------------------------------------");
            }

            // Close the PDF document
            document.close();
        } catch (IOException | TesseractException e) {
            e.printStackTrace();
        }
    }
}

 Русский