Biblioteca Java gratuita para extração de texto OCR e análise de documentos
Biblioteca Java OCR de código aberto para incorporar recursos de OCR em aplicativos Java e permite extrair texto de imagens, bem como documentos digitalizados.
Na era digital atual, o reconhecimento óptico de caracteres (OCR) tornou-se uma ferramenta essencial para extrair texto de imagens e documentos digitalizados. A tecnologia OCR permite a conversão de texto impresso ou manuscrito em dados legíveis por máquina, abrindo inúmeras possibilidades para análise de documentos, extração de dados e automação. Entre as muitas soluções de OCR disponíveis, Tess4J se destaca como uma poderosa biblioteca de código aberto que combina a versatilidade do mecanismo de OCR Tesseract com a simplicidade da programação Java.
A biblioteca Tess4J permite que os desenvolvedores Java incorporem recursos de OCR perfeitamente em seus aplicativos. É um wrapper Java para o Tesseract, um mecanismo de OCR originalmente desenvolvido pela Hewlett-Packard e atualmente mantido pelo Google. Tess4J aproveita o mecanismo OCR do Tesseract, conhecido por sua precisão. Ele emprega algoritmos avançados e técnicas de aprendizado de máquina para obter extração confiável de texto de imagens, garantindo resultados de alta qualidade. Ele permite a integração de OCR em aplicativos Java, tornando-o compatível com diferentes plataformas, incluindo Windows, Linux e macOS.
Tess4J fornece uma API simples e bem documentada, facilitando aos desenvolvedores a integração de recursos de OCR em seus aplicativos Java. Tess4J é uma biblioteca de código aberto versátil e robusta que permite aos desenvolvedores integrar poderosos recursos de OCR em seus aplicativos Java. Com suporte para vários idiomas, recursos de pré-processamento de imagens, recursos de conversão de PDF e sistema de pontuação de confiança, o Tess4J fornece uma solução eficiente e confiável para extração de texto e análise de documentos.
Introdução ao Tess4J
A maneira recomendada de instalar o Tess4J é usando o Maven. Use o seguinte comando para uma instalação tranquila.
Dependência de Maven para Tess4J
<dependencies>
<dependency>
<groupId>net.sourceforge.tess4j</groupId>
<artifactId>tess4j;/artifactId>
<version>X.X.X</version>
</dependency>
</dependencies>
Instale o Tess4J via GitHub
git clone https://github.com/nguyenq/tess4j.git
Você também pode instalá-lo manualmente; baixe os arquivos da versão mais recente diretamente do repositório GitHub.
Extração de conteúdo via API Java
A biblioteca Tess4J de código aberto permite que desenvolvedores de software extraiam texto de vários tipos de imagens dentro de aplicativos Java. A biblioteca permite a extração de texto de imagens, possibilitando que os aplicativos analisem e processem o conteúdo textual. Esse recurso encontra aplicações em áreas como análise de sentimento, resumo de texto e recuperação de informações. A biblioteca também facilita o carregamento do mecanismo Tesseract OCR, a extração de conteúdo na imagem especificada e a impressão do texto extraído no console.
Realizar extração de conteúdo usando a biblioteca Java OCR
import net.sourceforge.tess4j.Tesseract;
import net.sourceforge.tess4j.TesseractException;
public class ContentExtractionExample {
public static void main(String[] args) {
// Path to the Tesseract OCR installation directory
String tessDataPath = "path/to/tesseract";
// Initialize Tesseract instance
Tesseract tesseract = new Tesseract();
tesseract.setDatapath(tessDataPath);
try {
// Set the language for OCR (e.g., "eng" for English)
tesseract.setLanguage("eng");
// Path to the image file for content extraction
String imagePath = "path/to/image.jpg";
// Perform content extraction
String extractedText = tesseract.doOCR(new File(imagePath));
System.out.println(extractedText);
} catch (TesseractException e) {
e.printStackTrace();
}
}
}
Conversão de PDF para texto simples via API Java
A biblioteca Tess4J de código aberto fornece funcionalidade completa para carregar e converter documentos PDF em texto simples dentro de aplicativos Java. Tess4J pode converter documentos PDF pesquisáveis em texto simples, permitindo aos desenvolvedores extrair conteúdo de arquivos PDF e realizar análises adicionais ou processamento de dados. O exemplo a seguir mostra como os desenvolvedores de software podem converter um arquivo PDF existente em texto simples dentro de aplicativos Java.
Como converter um arquivo PDF existente em texto simples?
import net.sourceforge.tess4j.Tesseract;
import net.sourceforge.tess4j.TesseractException;
import org.apache.pdfbox.pdmodel.PDDocument;
import org.apache.pdfbox.text.PDFTextStripper;
import java.io.File;
import java.io.IOException;
public class PDFToTextConverter {
public static void main(String[] args) {
// Path to the PDF file
String filePath = "path/to/your/pdf/file.pdf";
try {
// Load the PDF document
PDDocument document = PDDocument.load(new File(filePath));
// Create an instance of Tesseract OCR engine
Tesseract tesseract = new Tesseract();
// Set the path to the tessdata directory (containing language data)
tesseract.setDatapath("path/to/your/tessdata/directory");
// Iterate over each page of the PDF document
for (int pageIndex = 0; pageIndex < document.getNumberOfPages(); pageIndex++) {
// Extract the text from the current page
PDFTextStripper stripper = new PDFTextStripper();
stripper.setStartPage(pageIndex + 1);
stripper.setEndPage(pageIndex + 1);
String pageText = stripper.getText(document);
// Perform OCR on the extracted text
String ocrText = tesseract.doOCR(pageText);
// Output the OCR result
System.out.println("Page " + (pageIndex + 1) + " OCR Result:");
System.out.println(ocrText);
System.out.println("--------------------------------------");
}
// Close the PDF document
document.close();
} catch (IOException | TesseractException e) {
e.printStackTrace();
}
}
}