Безплатна Java библиотека за OCR извличане на текст и анализ на документи

Java OCR библиотека с отворен код за включване на възможности за OCR в Java приложения и позволява извличане на текст от изображения, както и от сканирани документи.

В днешната цифрова ера оптичното разпознаване на символи (OCR) се превърна в основен инструмент за извличане на текст от изображения и сканирани документи. OCR технологията позволява преобразуването на печатен или ръкописен текст в машинночетими данни, отваряйки многобройни възможности за анализ на документи, извличане на данни и автоматизация. Сред многото налични OCR решения, Tess4J се откроява като мощна библиотека с отворен код, която съчетава гъвкавостта на Tesseract OCR двигателя с простотата на програмирането на Java.

Библиотеката Tess4J дава възможност на разработчиците на Java да включат безпроблемно възможностите за OCR в своите приложения. Това е Java обвивка за Tesseract, OCR машина, първоначално разработена от Hewlett-Packard и понастоящем поддържана от Google. Tess4J използва OCR двигателя на Tesseract, известен със своята точност. Той използва усъвършенствани алгоритми и техники за машинно обучение, за да постигне надеждно извличане на текст от изображения, като гарантира висококачествени резултати. Позволява OCR интегриране в Java приложения, което го прави съвместим с различни платформи, включително Windows, Linux и macOS.

Tess4J предоставя ясен и добре документиран API, което улеснява разработчиците да интегрират OCR възможности в своите Java приложения. Tess4J е многофункционална и стабилна библиотека с отворен код, която дава възможност на разработчиците да интегрират мощни OCR възможности в своите Java приложения. Със своята поддръжка за множество езици, функции за предварителна обработка на изображения, възможности за преобразуване на PDF и система за оценка на доверието, Tess4J предоставя ефективно и надеждно решение за извличане на текст и анализ на документи.

Previous Next

Първи стъпки с Tess4J

Препоръчителният начин за инсталиране на Tess4J е използването на Maven. Моля, използвайте следната команда за гладка инсталация.

Зависимост на Maven за Tess4J


<dependencies>
	<dependency>
	<groupId>net.sourceforge.tess4j</groupId>
	<artifactId>tess4j;/artifactId>
	<version>X.X.X</version>
    </dependency>
</dependencies>

Инсталирайте Tess4J чрез GitHub

 git clone https://github.com/nguyenq/tess4j.git  

Можете също да го инсталирате ръчно; изтеглете файловете с най-новата версия директно от хранилището на GitHub.

Извличане на съдържание чрез Java API

Библиотеката Tess4J с отворен код позволява на разработчиците на софтуер да извличат текст от различни типове изображения в Java приложения. Библиотеката позволява извличане на текст от изображения, позволявайки на приложенията да анализират и обработват текстовото съдържание. Тази способност намира приложения в области като анализ на настроението, обобщаване на текст и извличане на информация. Библиотеката също така улеснява зареждането на Tesseract OCR двигателя, извършването на извличане на съдържание върху определеното изображение и отпечатването на извлечения текст в конзолата.

Извършване на извличане на съдържание с помощта на Java OCR библиотека

import net.sourceforge.tess4j.Tesseract;
import net.sourceforge.tess4j.TesseractException;

public class ContentExtractionExample {
    public static void main(String[] args) {
        // Path to the Tesseract OCR installation directory
        String tessDataPath = "path/to/tesseract";

        // Initialize Tesseract instance
        Tesseract tesseract = new Tesseract();
        tesseract.setDatapath(tessDataPath);

        try {
            // Set the language for OCR (e.g., "eng" for English)
            tesseract.setLanguage("eng");

            // Path to the image file for content extraction
            String imagePath = "path/to/image.jpg";

            // Perform content extraction
            String extractedText = tesseract.doOCR(new File(imagePath));
            System.out.println(extractedText);
        } catch (TesseractException e) {
            e.printStackTrace();
        }
    }
}

Преобразуване на PDF в обикновен текст чрез Java API

Библиотеката Tess4J с отворен код предоставя пълна функционалност за зареждане и конвертиране на PDF документи в обикновен текст в Java приложения. Tess4J може да конвертира PDF документи с възможност за търсене в обикновен текст, което позволява на разработчиците да извличат съдържание от PDF файлове и да извършват допълнителен анализ или обработка на данни. Следващият пример показва как разработчиците на софтуер могат да конвертират съществуващ PDF файл в обикновен текст в Java приложения.

Как да конвертирате съществуващ PDF файл в обикновен текст?

import net.sourceforge.tess4j.Tesseract;
import net.sourceforge.tess4j.TesseractException;
import org.apache.pdfbox.pdmodel.PDDocument;
import org.apache.pdfbox.text.PDFTextStripper;

import java.io.File;
import java.io.IOException;

public class PDFToTextConverter {
    public static void main(String[] args) {
        // Path to the PDF file
        String filePath = "path/to/your/pdf/file.pdf";

        try {
            // Load the PDF document
            PDDocument document = PDDocument.load(new File(filePath));

            // Create an instance of Tesseract OCR engine
            Tesseract tesseract = new Tesseract();

            // Set the path to the tessdata directory (containing language data)
            tesseract.setDatapath("path/to/your/tessdata/directory");

            // Iterate over each page of the PDF document
            for (int pageIndex = 0; pageIndex < document.getNumberOfPages(); pageIndex++) {
                // Extract the text from the current page
                PDFTextStripper stripper = new PDFTextStripper();
                stripper.setStartPage(pageIndex + 1);
                stripper.setEndPage(pageIndex + 1);
                String pageText = stripper.getText(document);

                // Perform OCR on the extracted text
                String ocrText = tesseract.doOCR(pageText);

                // Output the OCR result
                System.out.println("Page " + (pageIndex + 1) + " OCR Result:");
                System.out.println(ocrText);
                System.out.println("--------------------------------------");
            }

            // Close the PDF document
            document.close();
        } catch (IOException | TesseractException e) {
            e.printStackTrace();
        }
    }
}

 Български