Bibliothèque Java gratuite pour l'extraction de texte OCR et l'analyse de documents

Bibliothèque OCR Java Open Source pour intégrer des fonctionnalités OCR dans les applications Java et permet d'extraire du texte à partir d'images ainsi que de documents numérisés.

À l'ère numérique d'aujourd'hui, la reconnaissance optique de caractères (OCR) est devenue un outil essentiel pour extraire du texte à partir d'images et de documents numérisés. La technologie OCR permet la conversion de texte imprimé ou manuscrit en données lisibles par machine, ouvrant ainsi de nombreuses possibilités d'analyse de documents, d'extraction de données et d'automatisation. Parmi les nombreuses solutions OCR disponibles, Tess4J se distingue comme une puissante bibliothèque open source qui combine la polyvalence du moteur OCR Tesseract avec la simplicité de la programmation Java.

La bibliothèque Tess4J permet aux développeurs Java d'intégrer de manière transparente les fonctionnalités OCR dans leurs applications. Il s'agit d'un wrapper Java pour Tesseract, un moteur OCR initialement développé par Hewlett-Packard et actuellement maintenu par Google. Tess4J exploite le moteur OCR de Tesseract, réputé pour sa précision. Il utilise des algorithmes avancés et des techniques d'apprentissage automatique pour obtenir une extraction fiable de texte à partir d'images, garantissant ainsi des résultats de haute qualité. Il permet l'intégration de l'OCR dans les applications Java, ce qui le rend compatible avec différentes plates-formes, notamment Windows, Linux et macOS.

Tess4J fournit une API simple et bien documentée, permettant aux développeurs d'intégrer facilement les fonctionnalités OCR dans leurs applications Java. Tess4J est une bibliothèque open source polyvalente et robuste qui permet aux développeurs d'intégrer de puissantes fonctionnalités OCR dans leurs applications Java. Avec sa prise en charge de plusieurs langues, ses fonctionnalités de prétraitement d'images, ses capacités de conversion PDF et son système de notation de confiance, Tess4J fournit une solution efficace et fiable pour l'extraction de texte et l'analyse de documents.

En un coup d'œil

Un aperçu des fonctionnalités de Tess4J.

Aperçu des fonctionnalités

Effectuer l'OCR
Ajouter des fonctionnalités OCR
Reconnaître le texte de l'image
Convertir des images de texte
Texte de police reconnu
Rechercher un PDF
Plus de 100 langues
Créer des applications OCR
Enregistrer dans le navigateur
Extraire le texte
Support multithread

Tess4J

Tess4J prend en charge les formats de fichiers image populaires répertoriés ci-dessous.

Lecteur

PNG, JPEG, BMP, TIFF, TGA, DICOM

Écrivain

PNG, JPEG, BMP, TIFF

Tess4J

Indépendance de la plateforme

Tess4J peut fonctionner avec n'importe quel langage de programmation basé sur Java

Java

Tess4J

Démarrer avec Tess4J

La méthode recommandée pour installer Tess4J consiste à utiliser Maven. Veuillez utiliser la commande suivante pour une installation fluide.

Dépendance Maven pour Tess4J


<dependencies>
	<dependency>
	<groupId>net.sourceforge.tess4j</groupId>
	<artifactId>tess4j;/artifactId>
	<version>X.X.X</version>
    </dependency>
</dependencies>

Installer Tess4J via GitHub

 git clone https://github.com/nguyenq/tess4j.git

Vous pouvez également l'installer manuellement ; téléchargez les fichiers de la dernière version directement depuis le référentiel GitHub.

Extraction de contenu via l'API Java

La bibliothèque open source Tess4J permet aux développeurs de logiciels d'extraire du texte à partir de différents types d'images dans des applications Java. La bibliothèque permet l'extraction de texte à partir d'images, permettant aux applications d'analyser et de traiter le contenu textuel. Cette fonctionnalité trouve des applications dans des domaines tels que l'analyse des sentiments, la synthèse de texte et la récupération d'informations. La bibliothèque facilite également le chargement du moteur Tesseract OCR, l'extraction de contenu sur l'image spécifiée et l'impression du texte extrait sur la console.

Effectuer une extraction de contenu à l'aide de la bibliothèque Java OCR

import net.sourceforge.tess4j.Tesseract;
import net.sourceforge.tess4j.TesseractException;

public class ContentExtractionExample {
    public static void main(String[] args) {
        // Path to the Tesseract OCR installation directory
        String tessDataPath = "path/to/tesseract";

        // Initialize Tesseract instance
        Tesseract tesseract = new Tesseract();
        tesseract.setDatapath(tessDataPath);

        try {
            // Set the language for OCR (e.g., "eng" for English)
            tesseract.setLanguage("eng");

            // Path to the image file for content extraction
            String imagePath = "path/to/image.jpg";

            // Perform content extraction
            String extractedText = tesseract.doOCR(new File(imagePath));
            System.out.println(extractedText);
        } catch (TesseractException e) {
            e.printStackTrace();
        }
    }
}

Conversion PDF en texte brut via l'API Java

La bibliothèque open source Tess4J a fourni des fonctionnalités complètes pour charger et convertir des documents PDF en texte brut dans les applications Java. Tess4J peut convertir des documents PDF consultables en texte brut, permettant aux développeurs d'extraire le contenu des fichiers PDF et d'effectuer une analyse ou un traitement de données plus approfondi. L'exemple suivant montre comment les développeurs de logiciels peuvent convertir un fichier PDF existant en texte brut dans des applications Java.

Comment convertir un fichier PDF existant en texte brut ?

import net.sourceforge.tess4j.Tesseract;
import net.sourceforge.tess4j.TesseractException;
import org.apache.pdfbox.pdmodel.PDDocument;
import org.apache.pdfbox.text.PDFTextStripper;

import java.io.File;
import java.io.IOException;

public class PDFToTextConverter {
    public static void main(String[] args) {
        // Path to the PDF file
        String filePath = "path/to/your/pdf/file.pdf";

        try {
            // Load the PDF document
            PDDocument document = PDDocument.load(new File(filePath));

            // Create an instance of Tesseract OCR engine
            Tesseract tesseract = new Tesseract();

            // Set the path to the tessdata directory (containing language data)
            tesseract.setDatapath("path/to/your/tessdata/directory");

            // Iterate over each page of the PDF document
            for (int pageIndex = 0; pageIndex < document.getNumberOfPages(); pageIndex++) {
                // Extract the text from the current page
                PDFTextStripper stripper = new PDFTextStripper();
                stripper.setStartPage(pageIndex + 1);
                stripper.setEndPage(pageIndex + 1);
                String pageText = stripper.getText(document);

                // Perform OCR on the extracted text
                String ocrText = tesseract.doOCR(pageText);

                // Output the OCR result
                System.out.println("Page " + (pageIndex + 1) + " OCR Result:");
                System.out.println(ocrText);
                System.out.println("--------------------------------------");
            }

            // Close the PDF document
            document.close();
        } catch (IOException | TesseractException e) {
            e.printStackTrace();
        }
    }
}