Biblioteca Java gratuita para extração de texto OCR e análise de documentos

Biblioteca Java OCR de código aberto para incorporar recursos de OCR em aplicativos Java e permite extrair texto de imagens, bem como documentos digitalizados.

Na era digital atual, o reconhecimento óptico de caracteres (OCR) tornou-se uma ferramenta essencial para extrair texto de imagens e documentos digitalizados. A tecnologia OCR permite a conversão de texto impresso ou manuscrito em dados legíveis por máquina, abrindo inúmeras possibilidades para análise de documentos, extração de dados e automação. Entre as muitas soluções de OCR disponíveis, Tess4J se destaca como uma poderosa biblioteca de código aberto que combina a versatilidade do mecanismo de OCR Tesseract com a simplicidade da programação Java.

A biblioteca Tess4J permite que os desenvolvedores Java incorporem recursos de OCR perfeitamente em seus aplicativos. É um wrapper Java para o Tesseract, um mecanismo de OCR originalmente desenvolvido pela Hewlett-Packard e atualmente mantido pelo Google. Tess4J aproveita o mecanismo OCR do Tesseract, conhecido por sua precisão. Ele emprega algoritmos avançados e técnicas de aprendizado de máquina para obter extração confiável de texto de imagens, garantindo resultados de alta qualidade. Ele permite a integração de OCR em aplicativos Java, tornando-o compatível com diferentes plataformas, incluindo Windows, Linux e macOS.

Tess4J fornece uma API simples e bem documentada, facilitando aos desenvolvedores a integração de recursos de OCR em seus aplicativos Java. Tess4J é uma biblioteca de código aberto versátil e robusta que permite aos desenvolvedores integrar poderosos recursos de OCR em seus aplicativos Java. Com suporte para vários idiomas, recursos de pré-processamento de imagens, recursos de conversão de PDF e sistema de pontuação de confiança, o Tess4J fornece uma solução eficiente e confiável para extração de texto e análise de documentos.

Resumo

Uma visão geral dos recursos do Tess4J.

Visão geral dos recursos

Executar OCR
Adicionar recursos de OCR
Reconhecer o texto da imagem
Converta imagens de texto
Texto de fonte reconhecida
Pesquisar PDF
Mais de 100 idiomas
Criar aplicativos de OCR
Salvar no navegador
Extrair texto
Suporte multithreading

Tess4J

Tess4J é compatível com formatos de arquivo de imagem populares listados abaixo.

Leitora

PNG, JPEG, BMP, TIFF, TGA, DICOM

Escritor

PNG, JPEG, BMP, TIFF

Tess4J

Independência de plataforma

Tess4J pode funcionar com qualquer linguagem de programação baseada em Java

Java

Tess4J

Introdução ao Tess4J

A maneira recomendada de instalar o Tess4J é usando o Maven. Use o seguinte comando para uma instalação tranquila.

Dependência de Maven para Tess4J


<dependencies>
	<dependency>
	<groupId>net.sourceforge.tess4j</groupId>
	<artifactId>tess4j;/artifactId>
	<version>X.X.X</version>
    </dependency>
</dependencies>

Instale o Tess4J via GitHub

 git clone https://github.com/nguyenq/tess4j.git

Você também pode instalá-lo manualmente; baixe os arquivos da versão mais recente diretamente do repositório GitHub.

Extração de conteúdo via API Java

A biblioteca Tess4J de código aberto permite que desenvolvedores de software extraiam texto de vários tipos de imagens dentro de aplicativos Java. A biblioteca permite a extração de texto de imagens, possibilitando que os aplicativos analisem e processem o conteúdo textual. Esse recurso encontra aplicações em áreas como análise de sentimento, resumo de texto e recuperação de informações. A biblioteca também facilita o carregamento do mecanismo Tesseract OCR, a extração de conteúdo na imagem especificada e a impressão do texto extraído no console.

Realizar extração de conteúdo usando a biblioteca Java OCR

import net.sourceforge.tess4j.Tesseract;
import net.sourceforge.tess4j.TesseractException;

public class ContentExtractionExample {
    public static void main(String[] args) {
        // Path to the Tesseract OCR installation directory
        String tessDataPath = "path/to/tesseract";

        // Initialize Tesseract instance
        Tesseract tesseract = new Tesseract();
        tesseract.setDatapath(tessDataPath);

        try {
            // Set the language for OCR (e.g., "eng" for English)
            tesseract.setLanguage("eng");

            // Path to the image file for content extraction
            String imagePath = "path/to/image.jpg";

            // Perform content extraction
            String extractedText = tesseract.doOCR(new File(imagePath));
            System.out.println(extractedText);
        } catch (TesseractException e) {
            e.printStackTrace();
        }
    }
}

Conversão de PDF para texto simples via API Java

A biblioteca Tess4J de código aberto fornece funcionalidade completa para carregar e converter documentos PDF em texto simples dentro de aplicativos Java. Tess4J pode converter documentos PDF pesquisáveis em texto simples, permitindo aos desenvolvedores extrair conteúdo de arquivos PDF e realizar análises adicionais ou processamento de dados. O exemplo a seguir mostra como os desenvolvedores de software podem converter um arquivo PDF existente em texto simples dentro de aplicativos Java.

Como converter um arquivo PDF existente em texto simples?

import net.sourceforge.tess4j.Tesseract;
import net.sourceforge.tess4j.TesseractException;
import org.apache.pdfbox.pdmodel.PDDocument;
import org.apache.pdfbox.text.PDFTextStripper;

import java.io.File;
import java.io.IOException;

public class PDFToTextConverter {
    public static void main(String[] args) {
        // Path to the PDF file
        String filePath = "path/to/your/pdf/file.pdf";

        try {
            // Load the PDF document
            PDDocument document = PDDocument.load(new File(filePath));

            // Create an instance of Tesseract OCR engine
            Tesseract tesseract = new Tesseract();

            // Set the path to the tessdata directory (containing language data)
            tesseract.setDatapath("path/to/your/tessdata/directory");

            // Iterate over each page of the PDF document
            for (int pageIndex = 0; pageIndex < document.getNumberOfPages(); pageIndex++) {
                // Extract the text from the current page
                PDFTextStripper stripper = new PDFTextStripper();
                stripper.setStartPage(pageIndex + 1);
                stripper.setEndPage(pageIndex + 1);
                String pageText = stripper.getText(document);

                // Perform OCR on the extracted text
                String ocrText = tesseract.doOCR(pageText);

                // Output the OCR result
                System.out.println("Page " + (pageIndex + 1) + " OCR Result:");
                System.out.println(ocrText);
                System.out.println("--------------------------------------");
            }

            // Close the PDF document
            document.close();
        } catch (IOException | TesseractException e) {
            e.printStackTrace();
        }
    }
}