1. Produse
  2.   OCR
  3.   Java
  4.   Tess4J
 
  

Biblioteca Java gratuită pentru extragerea textului OCR și analiza documentelor

Bibliotecă Java OCR cu sursă deschisă pentru încorporarea capabilităților OCR în aplicațiile Java și permite extragerea textului din imagini, precum și din documente scanate.

În era digitală de astăzi, recunoașterea optică a caracterelor (OCR) a devenit un instrument esențial pentru extragerea textului din imagini și documente scanate. Tehnologia OCR permite conversia textului tipărit sau scris de mână în date care pot fi citite de mașină, deschizând numeroase posibilități pentru analiza documentelor, extragerea datelor și automatizare. Printre numeroasele soluții OCR disponibile, Tess4J se remarcă ca o bibliotecă open-source puternică care combină versatilitatea motorului Tesseract OCR cu simplitatea programării Java.

Biblioteca Tess4J permite dezvoltatorilor Java să încorporeze perfect capabilități OCR în aplicațiile lor. Este un wrapper Java pentru Tesseract, un motor OCR dezvoltat inițial de Hewlett-Packard și întreținut în prezent de Google. Tess4J folosește motorul OCR al Tesseract, renumit pentru acuratețea sa. Utilizează algoritmi avansați și tehnici de învățare automată pentru a obține extragerea fiabilă a textului din imagini, asigurând rezultate de înaltă calitate. Permite integrarea OCR în aplicațiile Java, făcându-l compatibil cu diferite platforme, inclusiv Windows, Linux și macOS.

Tess4J oferă un API simplu și bine documentat, facilitând pentru dezvoltatori să integreze capabilitățile OCR în aplicațiile lor Java. Tess4J este o bibliotecă open-source, versatilă și robustă, care permite dezvoltatorilor să integreze capabilități OCR puternice în aplicațiile lor Java. Cu suportul pentru mai multe limbi, funcțiile de preprocesare a imaginilor, capabilitățile de conversie PDF și sistemul de punctare al încrederii, Tess4J oferă o soluție eficientă și fiabilă pentru extragerea textului și analiza documentelor.

Previous Next

Noțiuni introductive cu Tess4J

Modul recomandat de a instala Tess4J este folosirea Maven. Vă rugăm să utilizați următoarea comandă pentru o instalare fără probleme.

Dependența Maven pentru Tess4J


<dependencies>
	<dependency>
	<groupId>net.sourceforge.tess4j</groupId>
	<artifactId>tess4j;/artifactId>
	<version>X.X.X</version>
    </dependency>
</dependencies>

Instalați Tess4J prin GitHub

 git clone https://github.com/nguyenq/tess4j.git  

De asemenea, îl puteți instala manual; descărcați cele mai recente fișiere de lansare direct din depozitul GitHub.

Extragerea conținutului prin API-ul Java

Biblioteca open source Tess4J permite dezvoltatorilor de software să extragă text din diferite tipuri de imagini din aplicațiile Java. Biblioteca permite extragerea de text din imagini, permițând aplicațiilor să analizeze și să proceseze conținutul textual. Această capacitate găsește aplicații în domenii precum analiza sentimentelor, rezumarea textului și regăsirea informațiilor. De asemenea, biblioteca facilitează încărcarea motorului Tesseract OCR, extragerea conținutului pe imaginea specificată și tipărirea textului extras pe consolă.

Efectuați extragerea conținutului folosind biblioteca OCR Java

import net.sourceforge.tess4j.Tesseract;
import net.sourceforge.tess4j.TesseractException;

public class ContentExtractionExample {
    public static void main(String[] args) {
        // Path to the Tesseract OCR installation directory
        String tessDataPath = "path/to/tesseract";

        // Initialize Tesseract instance
        Tesseract tesseract = new Tesseract();
        tesseract.setDatapath(tessDataPath);

        try {
            // Set the language for OCR (e.g., "eng" for English)
            tesseract.setLanguage("eng");

            // Path to the image file for content extraction
            String imagePath = "path/to/image.jpg";

            // Perform content extraction
            String extractedText = tesseract.doOCR(new File(imagePath));
            System.out.println(extractedText);
        } catch (TesseractException e) {
            e.printStackTrace();
        }
    }
}

Conversie PDF în text simplu prin API-ul Java

Biblioteca open source Tess4J a oferit funcționalitate completă pentru încărcarea și convertirea documentelor PDF într-un text simplu în cadrul aplicațiilor Java. Tess4J poate converti documentele PDF care pot fi căutate în text simplu, permițând dezvoltatorilor să extragă conținut din fișierele PDF și să efectueze analize sau procesări suplimentare de date. Următorul exemplu arată cum dezvoltatorii de software pot converti un fișier PDF existent în text simplu în cadrul aplicațiilor Java.

Cum se transformă un fișier PDF existent în text simplu?

import net.sourceforge.tess4j.Tesseract;
import net.sourceforge.tess4j.TesseractException;
import org.apache.pdfbox.pdmodel.PDDocument;
import org.apache.pdfbox.text.PDFTextStripper;

import java.io.File;
import java.io.IOException;

public class PDFToTextConverter {
    public static void main(String[] args) {
        // Path to the PDF file
        String filePath = "path/to/your/pdf/file.pdf";

        try {
            // Load the PDF document
            PDDocument document = PDDocument.load(new File(filePath));

            // Create an instance of Tesseract OCR engine
            Tesseract tesseract = new Tesseract();

            // Set the path to the tessdata directory (containing language data)
            tesseract.setDatapath("path/to/your/tessdata/directory");

            // Iterate over each page of the PDF document
            for (int pageIndex = 0; pageIndex < document.getNumberOfPages(); pageIndex++) {
                // Extract the text from the current page
                PDFTextStripper stripper = new PDFTextStripper();
                stripper.setStartPage(pageIndex + 1);
                stripper.setEndPage(pageIndex + 1);
                String pageText = stripper.getText(document);

                // Perform OCR on the extracted text
                String ocrText = tesseract.doOCR(pageText);

                // Output the OCR result
                System.out.println("Page " + (pageIndex + 1) + " OCR Result:");
                System.out.println(ocrText);
                System.out.println("--------------------------------------");
            }

            // Close the PDF document
            document.close();
        } catch (IOException | TesseractException e) {
            e.printStackTrace();
        }
    }
}

 Română