1. Prodotti
  2.   OCR
  3.   Java
  4.   Tess4J
 
  

Libreria Java gratuita per l'estrazione del testo OCR e l'analisi dei documenti

Libreria OCR Java open source per incorporare funzionalità OCR nelle app Java e consente di estrarre testo da immagini e documenti scansionati.

Nell'era digitale di oggi, il riconoscimento ottico dei caratteri (OCR) è diventato uno strumento essenziale per estrarre testo da immagini e documenti scansionati. La tecnologia OCR consente la conversione di testo stampato o scritto a mano in dati leggibili dalla macchina, aprendo numerose possibilità per l'analisi dei documenti, l'estrazione dei dati e l'automazione. Tra le tante soluzioni OCR disponibili, Tess4J si distingue come una potente libreria open source che unisce la versatilità del motore OCR Tesseract con la semplicità della programmazione Java.

La libreria Tess4J consente agli sviluppatori Java di incorporare perfettamente le funzionalità OCR nelle loro applicazioni. È un wrapper Java per Tesseract, un motore OCR originariamente sviluppato da Hewlett-Packard e attualmente gestito da Google. Tess4J sfrutta il motore OCR di Tesseract, rinomato per la sua precisione. Utilizza algoritmi avanzati e tecniche di apprendimento automatico per ottenere un'estrazione affidabile del testo dalle immagini, garantendo risultati di alta qualità. Consente l'integrazione dell'OCR nelle applicazioni Java, rendendolo compatibile con diverse piattaforme, tra cui Windows, Linux e macOS.

Tess4J fornisce un'API semplice e ben documentata, consentendo agli sviluppatori di integrare facilmente le funzionalità OCR nelle loro applicazioni Java. Tess4J è una libreria open source versatile e robusta che consente agli sviluppatori di integrare potenti funzionalità OCR nelle loro applicazioni Java. Con il supporto di più lingue, funzionalità di preelaborazione delle immagini, funzionalità di conversione PDF e sistema di punteggio di affidabilità, Tess4J fornisce una soluzione efficiente e affidabile per l'estrazione del testo e l'analisi dei documenti.

Previous Next

Iniziare con Tess4J

Il modo consigliato per installare Tess4J è utilizzare Maven. Si prega di utilizzare il seguente comando per un'installazione fluida.

Dipendenza da Maven per Tess4J


<dependencies>
	<dependency>
	<groupId>net.sourceforge.tess4j</groupId>
	<artifactId>tess4j;/artifactId>
	<version>X.X.X</version>
    </dependency>
</dependencies>

Installa Tess4J tramite GitHub

 git clone https://github.com/nguyenq/tess4j.git  

Puoi anche installarlo manualmente; scarica i file della versione più recente direttamente dal repository GitHub.

Estrazione di contenuti tramite API Java

La libreria open source Tess4J consente agli sviluppatori di software di estrarre testo da vari tipi di immagini all'interno delle applicazioni Java. La libreria consente l'estrazione di testo dalle immagini, consentendo alle applicazioni di analizzare ed elaborare il contenuto testuale. Questa funzionalità trova applicazioni in aree quali l'analisi del sentiment, il riepilogo del testo e il recupero delle informazioni. La libreria semplifica inoltre il caricamento del motore Tesseract OCR, l'estrazione del contenuto sull'immagine specificata e la stampa del testo estratto sulla console.

Esegui l'estrazione dei contenuti utilizzando la libreria Java OCR

import net.sourceforge.tess4j.Tesseract;
import net.sourceforge.tess4j.TesseractException;

public class ContentExtractionExample {
    public static void main(String[] args) {
        // Path to the Tesseract OCR installation directory
        String tessDataPath = "path/to/tesseract";

        // Initialize Tesseract instance
        Tesseract tesseract = new Tesseract();
        tesseract.setDatapath(tessDataPath);

        try {
            // Set the language for OCR (e.g., "eng" for English)
            tesseract.setLanguage("eng");

            // Path to the image file for content extraction
            String imagePath = "path/to/image.jpg";

            // Perform content extraction
            String extractedText = tesseract.doOCR(new File(imagePath));
            System.out.println(extractedText);
        } catch (TesseractException e) {
            e.printStackTrace();
        }
    }
}

Conversione PDF in testo semplice tramite API Java

La libreria open source Tess4J ha fornito funzionalità complete per il caricamento e la conversione di documenti PDF in testo semplice all'interno delle applicazioni Java. Tess4J può convertire documenti PDF ricercabili in testo semplice, consentendo agli sviluppatori di estrarre contenuti da file PDF ed eseguire ulteriori analisi o elaborazioni dei dati. L'esempio seguente mostra come gli sviluppatori di software possono convertire un file PDF esistente in testo semplice all'interno delle applicazioni Java.

Come convertire un file PDF esistente in testo semplice?

import net.sourceforge.tess4j.Tesseract;
import net.sourceforge.tess4j.TesseractException;
import org.apache.pdfbox.pdmodel.PDDocument;
import org.apache.pdfbox.text.PDFTextStripper;

import java.io.File;
import java.io.IOException;

public class PDFToTextConverter {
    public static void main(String[] args) {
        // Path to the PDF file
        String filePath = "path/to/your/pdf/file.pdf";

        try {
            // Load the PDF document
            PDDocument document = PDDocument.load(new File(filePath));

            // Create an instance of Tesseract OCR engine
            Tesseract tesseract = new Tesseract();

            // Set the path to the tessdata directory (containing language data)
            tesseract.setDatapath("path/to/your/tessdata/directory");

            // Iterate over each page of the PDF document
            for (int pageIndex = 0; pageIndex < document.getNumberOfPages(); pageIndex++) {
                // Extract the text from the current page
                PDFTextStripper stripper = new PDFTextStripper();
                stripper.setStartPage(pageIndex + 1);
                stripper.setEndPage(pageIndex + 1);
                String pageText = stripper.getText(document);

                // Perform OCR on the extracted text
                String ocrText = tesseract.doOCR(pageText);

                // Output the OCR result
                System.out.println("Page " + (pageIndex + 1) + " OCR Result:");
                System.out.println(ocrText);
                System.out.println("--------------------------------------");
            }

            // Close the PDF document
            document.close();
        } catch (IOException | TesseractException e) {
            e.printStackTrace();
        }
    }
}

 Italiano