1. Producten
  2.   OCR
  3.   Java
  4.   Tess4J
 
  

Gratis Java-bibliotheek voor OCR-tekstextractie en documentanalyse

Open Source Java OCR-bibliotheek voor het opnemen van OCR-mogelijkheden in Java-apps en maakt het extraheren van tekst uit afbeeldingen en gescande documenten mogelijk.

In het huidige digitale tijdperk is Optical Character Recognition (OCR) een essentieel hulpmiddel geworden voor het extraheren van tekst uit afbeeldingen en gescande documenten. OCR-technologie maakt de conversie van gedrukte of handgeschreven tekst naar machinaal leesbare gegevens mogelijk, waardoor talloze mogelijkheden ontstaan ​​voor documentanalyse, gegevensextractie en automatisering. Onder de vele beschikbare OCR-oplossingen valt Tess4J op als een krachtige open-sourcebibliotheek die de veelzijdigheid van de Tesseract OCR-engine combineert met de eenvoud van Java-programmeren.

De Tess4J-bibliotheek stelt Java-ontwikkelaars in staat OCR-mogelijkheden naadloos in hun applicaties te integreren. Het is een Java-wrapper voor Tesseract, een OCR-engine die oorspronkelijk is ontwikkeld door Hewlett-Packard en momenteel wordt onderhouden door Google. Tess4J maakt gebruik van de OCR-engine van Tesseract, bekend om zijn nauwkeurigheid. Het maakt gebruik van geavanceerde algoritmen en machine learning-technieken om betrouwbare tekstextractie uit afbeeldingen te bereiken, waardoor resultaten van hoge kwaliteit worden gegarandeerd. Het maakt OCR-integratie in Java-applicaties mogelijk, waardoor het compatibel is met verschillende platforms, waaronder Windows, Linux en macOS.

Tess4J biedt een eenvoudige en goed gedocumenteerde API, waardoor het voor ontwikkelaars gemakkelijk wordt om OCR-mogelijkheden in hun Java-applicaties te integreren. Tess4J is een veelzijdige en robuuste open-sourcebibliotheek waarmee ontwikkelaars krachtige OCR-mogelijkheden in hun Java-applicaties kunnen integreren. Met ondersteuning voor meerdere talen, functies voor het voorbewerken van afbeeldingen, PDF-conversiemogelijkheden en een betrouwbaarheidsscoresysteem biedt Tess4J een efficiënte en betrouwbare oplossing voor tekstextractie en documentanalyse.

Previous Next

Aan de slag met Tess4J

De aanbevolen manier om Tess4J te installeren is met behulp van Maven. Gebruik het volgende commando voor een vlotte installatie.

Maven-afhankelijkheid voor Tess4J


<dependencies>
	<dependency>
	<groupId>net.sourceforge.tess4j</groupId>
	<artifactId>tess4j;/artifactId>
	<version>X.X.X</version>
    </dependency>
</dependencies>

Installeer Tess4J via GitHub

 git clone https://github.com/nguyenq/tess4j.git  

Je kunt het ook handmatig installeren; download de nieuwste releasebestanden rechtstreeks vanuit de GitHub repository.

Inhoudextractie via Java API

Met de open source Tess4J-bibliotheek kunnen softwareontwikkelaars tekst extraheren uit verschillende soorten afbeeldingen in Java-applicaties. De bibliotheek maakt het mogelijk tekst uit afbeeldingen te extraheren, waardoor applicaties de tekstuele inhoud kunnen analyseren en verwerken. Deze mogelijkheid vindt toepassingen op gebieden zoals sentimentanalyse, samenvatting van teksten en het ophalen van informatie. De bibliotheek maakt het ook gemakkelijk om de Tesseract OCR-engine te laden, inhoudsextractie uit te voeren op de opgegeven afbeelding en de geëxtraheerde tekst naar de console af te drukken.

Voer inhoudextractie uit met behulp van de Java OCR-bibliotheek

import net.sourceforge.tess4j.Tesseract;
import net.sourceforge.tess4j.TesseractException;

public class ContentExtractionExample {
    public static void main(String[] args) {
        // Path to the Tesseract OCR installation directory
        String tessDataPath = "path/to/tesseract";

        // Initialize Tesseract instance
        Tesseract tesseract = new Tesseract();
        tesseract.setDatapath(tessDataPath);

        try {
            // Set the language for OCR (e.g., "eng" for English)
            tesseract.setLanguage("eng");

            // Path to the image file for content extraction
            String imagePath = "path/to/image.jpg";

            // Perform content extraction
            String extractedText = tesseract.doOCR(new File(imagePath));
            System.out.println(extractedText);
        } catch (TesseractException e) {
            e.printStackTrace();
        }
    }
}

PDF-conversie naar platte tekst via Java API

De open source Tess4J-bibliotheek biedt volledige functionaliteit voor het laden en converteren van PDF-documenten naar platte tekst in Java-toepassingen. Tess4J kan doorzoekbare PDF-documenten omzetten in platte tekst, waardoor ontwikkelaars inhoud uit PDF-bestanden kunnen extraheren en verdere analyses of gegevensverwerking kunnen uitvoeren. Het volgende voorbeeld laat zien hoe softwareontwikkelaars een bestaand PDF-bestand in Java-toepassingen naar platte tekst kunnen converteren.

Hoe converteer ik een bestaand PDF-bestand naar platte tekst?

import net.sourceforge.tess4j.Tesseract;
import net.sourceforge.tess4j.TesseractException;
import org.apache.pdfbox.pdmodel.PDDocument;
import org.apache.pdfbox.text.PDFTextStripper;

import java.io.File;
import java.io.IOException;

public class PDFToTextConverter {
    public static void main(String[] args) {
        // Path to the PDF file
        String filePath = "path/to/your/pdf/file.pdf";

        try {
            // Load the PDF document
            PDDocument document = PDDocument.load(new File(filePath));

            // Create an instance of Tesseract OCR engine
            Tesseract tesseract = new Tesseract();

            // Set the path to the tessdata directory (containing language data)
            tesseract.setDatapath("path/to/your/tessdata/directory");

            // Iterate over each page of the PDF document
            for (int pageIndex = 0; pageIndex < document.getNumberOfPages(); pageIndex++) {
                // Extract the text from the current page
                PDFTextStripper stripper = new PDFTextStripper();
                stripper.setStartPage(pageIndex + 1);
                stripper.setEndPage(pageIndex + 1);
                String pageText = stripper.getText(document);

                // Perform OCR on the extracted text
                String ocrText = tesseract.doOCR(pageText);

                // Output the OCR result
                System.out.println("Page " + (pageIndex + 1) + " OCR Result:");
                System.out.println(ocrText);
                System.out.println("--------------------------------------");
            }

            // Close the PDF document
            document.close();
        } catch (IOException | TesseractException e) {
            e.printStackTrace();
        }
    }
}

 Dutch