1. Produkty
  2.   OCR
  3.   Java
  4.   Tess4J
 
  

Bezpłatna biblioteka Java do ekstrakcji tekstu OCR i analizy dokumentów

Biblioteka OCR Java typu open source do włączania funkcji OCR do aplikacji Java i umożliwia wyodrębnianie tekstu z obrazów oraz zeskanowanych dokumentów.

W dzisiejszej erze cyfrowej optyczne rozpoznawanie znaków (OCR) stało się niezbędnym narzędziem do wyodrębniania tekstu z obrazów i zeskanowanych dokumentów. Technologia OCR umożliwia konwersję tekstu drukowanego lub pisanego odręcznie na dane do odczytu maszynowego, otwierając liczne możliwości analizy dokumentów, ekstrakcji danych i automatyzacji. Wśród wielu dostępnych rozwiązań OCR Tess4J wyróżnia się jako potężna biblioteka typu open source, która łączy w sobie wszechstronność silnika Tesseract OCR z prostotą programowania w języku Java.

Biblioteka Tess4J umożliwia programistom Java płynne włączanie funkcji OCR do swoich aplikacji. Jest to opakowanie Java dla Tesseract, silnika OCR pierwotnie opracowanego przez firmę Hewlett-Packard i obecnie obsługiwanego przez Google. Tess4J wykorzystuje silnik OCR Tesseract, znany ze swojej dokładności. Wykorzystuje zaawansowane algorytmy i techniki uczenia maszynowego, aby uzyskać niezawodną ekstrakcję tekstu z obrazów, zapewniając wysoką jakość wyników. Umożliwia integrację OCR z aplikacjami Java, dzięki czemu jest kompatybilny z różnymi platformami, w tym Windows, Linux i macOS.

Tess4J zapewnia proste i dobrze udokumentowane API, ułatwiające programistom integrację funkcji OCR z ich aplikacjami Java. Tess4J to wszechstronna i solidna biblioteka typu open source, która umożliwia programistom integrację zaawansowanych funkcji OCR z ich aplikacjami Java. Dzięki obsłudze wielu języków, funkcjom wstępnego przetwarzania obrazu, możliwościom konwersji plików PDF i systemowi oceny pewności, Tess4J zapewnia wydajne i niezawodne rozwiązanie do ekstrakcji tekstu i analizy dokumentów.

Previous Next

Pierwsze kroki z Tess4J

Zalecanym sposobem instalacji Tess4J jest użycie Mavena. Aby instalacja przebiegła bezproblemowo, użyj poniższego polecenia.

Zależność Mavena dla Tess4J


<dependencies>
	<dependency>
	<groupId>net.sourceforge.tess4j</groupId>
	<artifactId>tess4j;/artifactId>
	<version>X.X.X</version>
    </dependency>
</dependencies>

Zainstaluj Tess4J przez GitHub

 git clone https://github.com/nguyenq/tess4j.git  

Możesz także zainstalować go ręcznie; pobierz pliki najnowszej wersji bezpośrednio z repozytorium GitHub.

Wyodrębnianie treści za pośrednictwem interfejsu API języka Java

Biblioteka Tess4J o otwartym kodzie źródłowym umożliwia twórcom oprogramowania wyodrębnianie tekstu z różnych typów obrazów w aplikacjach Java. Biblioteka umożliwia wyodrębnianie tekstu z obrazów, umożliwiając aplikacjom analizę i przetwarzanie treści tekstowych. Ta funkcja znajduje zastosowanie w takich obszarach, jak analiza nastrojów, podsumowywanie tekstu i wyszukiwanie informacji. Biblioteka ułatwia także załadowanie silnika Tesseract OCR, wyodrębnienie zawartości z określonego obrazu i wydrukowanie wyodrębnionego tekstu na konsoli.

Wyodrębnij zawartość przy użyciu biblioteki Java OCR

import net.sourceforge.tess4j.Tesseract;
import net.sourceforge.tess4j.TesseractException;

public class ContentExtractionExample {
    public static void main(String[] args) {
        // Path to the Tesseract OCR installation directory
        String tessDataPath = "path/to/tesseract";

        // Initialize Tesseract instance
        Tesseract tesseract = new Tesseract();
        tesseract.setDatapath(tessDataPath);

        try {
            // Set the language for OCR (e.g., "eng" for English)
            tesseract.setLanguage("eng");

            // Path to the image file for content extraction
            String imagePath = "path/to/image.jpg";

            // Perform content extraction
            String extractedText = tesseract.doOCR(new File(imagePath));
            System.out.println(extractedText);
        } catch (TesseractException e) {
            e.printStackTrace();
        }
    }
}

Konwersja pliku PDF na zwykły tekst za pośrednictwem interfejsu API języka Java

Biblioteka Tess4J o otwartym kodzie źródłowym zapewnia pełną funkcjonalność ładowania i konwertowania dokumentów PDF na zwykły tekst w aplikacjach Java. Tess4J może konwertować przeszukiwalne dokumenty PDF na zwykły tekst, umożliwiając programistom wyodrębnianie treści z plików PDF i przeprowadzanie dalszej analizy lub przetwarzania danych. Poniższy przykład pokazuje, jak twórcy oprogramowania mogą przekonwertować istniejący plik PDF na zwykły tekst w aplikacjach Java.

Jak przekonwertować istniejący plik PDF na zwykły tekst?

import net.sourceforge.tess4j.Tesseract;
import net.sourceforge.tess4j.TesseractException;
import org.apache.pdfbox.pdmodel.PDDocument;
import org.apache.pdfbox.text.PDFTextStripper;

import java.io.File;
import java.io.IOException;

public class PDFToTextConverter {
    public static void main(String[] args) {
        // Path to the PDF file
        String filePath = "path/to/your/pdf/file.pdf";

        try {
            // Load the PDF document
            PDDocument document = PDDocument.load(new File(filePath));

            // Create an instance of Tesseract OCR engine
            Tesseract tesseract = new Tesseract();

            // Set the path to the tessdata directory (containing language data)
            tesseract.setDatapath("path/to/your/tessdata/directory");

            // Iterate over each page of the PDF document
            for (int pageIndex = 0; pageIndex < document.getNumberOfPages(); pageIndex++) {
                // Extract the text from the current page
                PDFTextStripper stripper = new PDFTextStripper();
                stripper.setStartPage(pageIndex + 1);
                stripper.setEndPage(pageIndex + 1);
                String pageText = stripper.getText(document);

                // Perform OCR on the extracted text
                String ocrText = tesseract.doOCR(pageText);

                // Output the OCR result
                System.out.println("Page " + (pageIndex + 1) + " OCR Result:");
                System.out.println(ocrText);
                System.out.println("--------------------------------------");
            }

            // Close the PDF document
            document.close();
        } catch (IOException | TesseractException e) {
            e.printStackTrace();
        }
    }
}

 Polski