1. Produkte
  2.   OCR
  3.   Java
  4.   Tess4J
 
  

Kostenlose Java-Bibliothek für OCR-Textextraktion und Dokumentenanalyse

Open-Source-Java-OCR-Bibliothek zur Integration von OCR-Funktionen in Java-Apps und ermöglicht das Extrahieren von Text aus Bildern sowie gescannten Dokumenten.

Im heutigen digitalen Zeitalter ist die optische Zeichenerkennung (OCR) zu einem unverzichtbaren Werkzeug zum Extrahieren von Text aus Bildern und gescannten Dokumenten geworden. Die OCR-Technologie ermöglicht die Umwandlung gedruckter oder handgeschriebener Texte in maschinenlesbare Daten und eröffnet zahlreiche Möglichkeiten zur Dokumentenanalyse, Datenextraktion und Automatisierung. Unter den vielen verfügbaren OCR-Lösungen sticht Tess4J als leistungsstarke Open-Source-Bibliothek hervor, die die Vielseitigkeit der Tesseract OCR-Engine mit der Einfachheit der Java-Programmierung kombiniert.

Die Tess4J-Bibliothek ermöglicht Java-Entwicklern die nahtlose Integration von OCR-Funktionen in ihre Anwendungen. Es handelt sich um einen Java-Wrapper für Tesseract, eine OCR-Engine, die ursprünglich von Hewlett-Packard entwickelt wurde und derzeit von Google verwaltet wird. Tess4J nutzt die OCR-Engine von Tesseract, die für ihre Genauigkeit bekannt ist. Es nutzt fortschrittliche Algorithmen und Techniken des maschinellen Lernens, um eine zuverlässige Textextraktion aus Bildern zu erreichen und so qualitativ hochwertige Ergebnisse zu gewährleisten. Es ermöglicht die OCR-Integration in Java-Anwendungen und macht es damit kompatibel mit verschiedenen Plattformen, einschließlich Windows, Linux und macOS.

Tess4J bietet eine unkomplizierte und gut dokumentierte API, die es Entwicklern erleichtert, OCR-Funktionen in ihre Java-Anwendungen zu integrieren. Tess4J ist eine vielseitige und robuste Open-Source-Bibliothek, die es Entwicklern ermöglicht, leistungsstarke OCR-Funktionen in ihre Java-Anwendungen zu integrieren. Mit der Unterstützung mehrerer Sprachen, Bildvorverarbeitungsfunktionen, PDF-Konvertierungsfunktionen und einem Konfidenzbewertungssystem bietet Tess4J eine effiziente und zuverlässige Lösung für die Textextraktion und Dokumentenanalyse.

Previous Next

Erste Schritte mit Tess4J

Die empfohlene Methode zur Installation von Tess4J ist die Verwendung von Maven. Für eine reibungslose Installation verwenden Sie bitte den folgenden Befehl.

Maven-Abhängigkeit für Tess4J


<dependencies>
	<dependency>
	<groupId>net.sourceforge.tess4j</groupId>
	<artifactId>tess4j;/artifactId>
	<version>X.X.X</version>
    </dependency>
</dependencies>

Installieren Sie Tess4J über GitHub

 git clone https://github.com/nguyenq/tess4j.git  

Sie können es auch manuell installieren; Laden Sie die neuesten Versionsdateien direkt aus dem GitHub-Repository herunter.

Inhaltsextraktion über Java API

Mit der Open-Source-Bibliothek Tess4J können Softwareentwickler Text aus verschiedenen Bildtypen in Java-Anwendungen extrahieren. Die Bibliothek ermöglicht die Extraktion von Text aus Bildern und ermöglicht Anwendungen die Analyse und Verarbeitung des Textinhalts. Diese Funktion findet Anwendung in Bereichen wie Stimmungsanalyse, Textzusammenfassung und Informationsabruf. Die Bibliothek erleichtert außerdem das Laden der Tesseract OCR-Engine, die Inhaltsextraktion für das angegebene Bild und das Drucken des extrahierten Texts auf der Konsole.

Führen Sie die Inhaltsextraktion mithilfe der Java OCR-Bibliothek durch

import net.sourceforge.tess4j.Tesseract;
import net.sourceforge.tess4j.TesseractException;

public class ContentExtractionExample {
    public static void main(String[] args) {
        // Path to the Tesseract OCR installation directory
        String tessDataPath = "path/to/tesseract";

        // Initialize Tesseract instance
        Tesseract tesseract = new Tesseract();
        tesseract.setDatapath(tessDataPath);

        try {
            // Set the language for OCR (e.g., "eng" for English)
            tesseract.setLanguage("eng");

            // Path to the image file for content extraction
            String imagePath = "path/to/image.jpg";

            // Perform content extraction
            String extractedText = tesseract.doOCR(new File(imagePath));
            System.out.println(extractedText);
        } catch (TesseractException e) {
            e.printStackTrace();
        }
    }
}

PDF-Konvertierung in einfachen Text über Java API

Die Open-Source-Bibliothek Tess4J bietet vollständige Funktionalität zum Laden und Konvertieren von PDF-Dokumenten in einfachen Text in Java-Anwendungen. Tess4J kann durchsuchbare PDF-Dokumente in einfachen Text umwandeln, sodass Entwickler Inhalte aus PDF-Dateien extrahieren und weitere Analysen oder Datenverarbeitung durchführen können. Das folgende Beispiel zeigt, wie Softwareentwickler eine vorhandene PDF-Datei in Java-Anwendungen in einfachen Text konvertieren können.

Wie konvertiert man eine vorhandene PDF-Datei in einfachen Text?

import net.sourceforge.tess4j.Tesseract;
import net.sourceforge.tess4j.TesseractException;
import org.apache.pdfbox.pdmodel.PDDocument;
import org.apache.pdfbox.text.PDFTextStripper;

import java.io.File;
import java.io.IOException;

public class PDFToTextConverter {
    public static void main(String[] args) {
        // Path to the PDF file
        String filePath = "path/to/your/pdf/file.pdf";

        try {
            // Load the PDF document
            PDDocument document = PDDocument.load(new File(filePath));

            // Create an instance of Tesseract OCR engine
            Tesseract tesseract = new Tesseract();

            // Set the path to the tessdata directory (containing language data)
            tesseract.setDatapath("path/to/your/tessdata/directory");

            // Iterate over each page of the PDF document
            for (int pageIndex = 0; pageIndex < document.getNumberOfPages(); pageIndex++) {
                // Extract the text from the current page
                PDFTextStripper stripper = new PDFTextStripper();
                stripper.setStartPage(pageIndex + 1);
                stripper.setEndPage(pageIndex + 1);
                String pageText = stripper.getText(document);

                // Perform OCR on the extracted text
                String ocrText = tesseract.doOCR(pageText);

                // Output the OCR result
                System.out.println("Page " + (pageIndex + 1) + " OCR Result:");
                System.out.println(ocrText);
                System.out.println("--------------------------------------");
            }

            // Close the PDF document
            document.close();
        } catch (IOException | TesseractException e) {
            e.printStackTrace();
        }
    }
}

 Deutsch