1. Produkter
  2.   OCR
  3.   Java
  4.   Tess4J
 
  

Gratis Java-bibliotek för OCR-textextraktion och dokumentanalys

Open Source Java OCR-bibliotek för att integrera OCR-funktioner i Java-appar och möjliggör extrahering av text från bilder såväl som skannade dokument.

I dagens digitala tidsålder har Optical Character Recognition (OCR) blivit ett viktigt verktyg för att extrahera text från bilder och skannade dokument. OCR-teknik möjliggör omvandling av tryckt eller handskriven text till maskinläsbar data, vilket öppnar upp för många möjligheter för dokumentanalys, dataextraktion och automatisering. Bland de många tillgängliga OCR-lösningarna utmärker sig Tess4J som ett kraftfullt bibliotek med öppen källkod som kombinerar mångsidigheten hos Tesseract OCR-motor med enkelheten i Java-programmering.

Tess4J-biblioteket ger Java-utvecklare möjlighet att integrera OCR-funktioner sömlöst i sina applikationer. Det är ett Java-omslag för Tesseract, en OCR-motor som ursprungligen utvecklades av Hewlett-Packard och för närvarande underhålls av Google. Tess4J utnyttjar Tesseracts OCR-motor, känd för sin noggrannhet. Den använder avancerade algoritmer och maskininlärningstekniker för att uppnå tillförlitlig textextraktion från bilder, vilket säkerställer resultat av hög kvalitet. Den möjliggör OCR-integrering i Java-applikationer, vilket gör den kompatibel med olika plattformar, inklusive Windows, Linux och macOS.

Tess4J tillhandahåller ett enkelt och väldokumenterat API, vilket gör det enkelt för utvecklare att integrera OCR-funktioner i sina Java-applikationer. Tess4J är ett mångsidigt och robust bibliotek med öppen källkod som ger utvecklare möjlighet att integrera kraftfulla OCR-funktioner i sina Java-applikationer. Med sitt stöd för flera språk, bildförbehandlingsfunktioner, PDF-konverteringsmöjligheter och konfidenspoängsystem ger Tess4J en effektiv och pålitlig lösning för textextraktion och dokumentanalys.

Previous Next

Komma igång med Tess4J

Det rekommenderade sättet att installera Tess4J är att använda Maven. Använd följande kommando för en smidig installation.

Maven Dependency för Tess4J


<dependencies>
	<dependency>
	<groupId>net.sourceforge.tess4j</groupId>
	<artifactId>tess4j;/artifactId>
	<version>X.X.X</version>
    </dependency>
</dependencies>

Installera Tess4J via GitHub

 git clone https://github.com/nguyenq/tess4j.git  

Du kan också installera det manuellt; ladda ner de senaste versionsfilerna direkt från GitHub-förrådet.

Innehållsextraktion via Java API

Tess4J-biblioteket med öppen källkod tillåter programutvecklare att extrahera text från olika typer av bilder i Java-applikationer. Biblioteket möjliggör extrahering av text från bilder, vilket gör det möjligt för applikationer att analysera och bearbeta textinnehållet. Denna förmåga hittar tillämpningar inom områden som sentimentanalys, textsammanfattning och informationssökning. Biblioteket gör det också enkelt att ladda Tesseract OCR-motorn, utföra innehållsextraktion på den angivna bilden och skriva ut den extraherade texten till konsolen.

Utför innehållsextraktion med Java OCR Library

import net.sourceforge.tess4j.Tesseract;
import net.sourceforge.tess4j.TesseractException;

public class ContentExtractionExample {
    public static void main(String[] args) {
        // Path to the Tesseract OCR installation directory
        String tessDataPath = "path/to/tesseract";

        // Initialize Tesseract instance
        Tesseract tesseract = new Tesseract();
        tesseract.setDatapath(tessDataPath);

        try {
            // Set the language for OCR (e.g., "eng" for English)
            tesseract.setLanguage("eng");

            // Path to the image file for content extraction
            String imagePath = "path/to/image.jpg";

            // Perform content extraction
            String extractedText = tesseract.doOCR(new File(imagePath));
            System.out.println(extractedText);
        } catch (TesseractException e) {
            e.printStackTrace();
        }
    }
}

PDF-konvertering till vanlig text via Java API

Tess4J-biblioteket med öppen källkod har tillhandahållit komplett funktionalitet för att ladda och konvertera PDF-dokument till en vanlig text i Java-applikationer. Tess4J kan konvertera sökbara PDF-dokument till vanlig text, vilket gör det möjligt för utvecklare att extrahera innehåll från PDF-filer och utföra ytterligare analys eller databearbetning. Följande exempel visar hur programutvecklare kan konvertera en befintlig PDF-fil till vanlig text i Java-program.

Hur konverterar man en befintlig PDF-fil till vanlig text?

import net.sourceforge.tess4j.Tesseract;
import net.sourceforge.tess4j.TesseractException;
import org.apache.pdfbox.pdmodel.PDDocument;
import org.apache.pdfbox.text.PDFTextStripper;

import java.io.File;
import java.io.IOException;

public class PDFToTextConverter {
    public static void main(String[] args) {
        // Path to the PDF file
        String filePath = "path/to/your/pdf/file.pdf";

        try {
            // Load the PDF document
            PDDocument document = PDDocument.load(new File(filePath));

            // Create an instance of Tesseract OCR engine
            Tesseract tesseract = new Tesseract();

            // Set the path to the tessdata directory (containing language data)
            tesseract.setDatapath("path/to/your/tessdata/directory");

            // Iterate over each page of the PDF document
            for (int pageIndex = 0; pageIndex < document.getNumberOfPages(); pageIndex++) {
                // Extract the text from the current page
                PDFTextStripper stripper = new PDFTextStripper();
                stripper.setStartPage(pageIndex + 1);
                stripper.setEndPage(pageIndex + 1);
                String pageText = stripper.getText(document);

                // Perform OCR on the extracted text
                String ocrText = tesseract.doOCR(pageText);

                // Output the OCR result
                System.out.println("Page " + (pageIndex + 1) + " OCR Result:");
                System.out.println(ocrText);
                System.out.println("--------------------------------------");
            }

            // Close the PDF document
            document.close();
        } catch (IOException | TesseractException e) {
            e.printStackTrace();
        }
    }
}

 Svenska