1. Produkter
  2.   OCR
  3.   Java
  4.   Tess4J
 
  

Gratis Java-bibliotek for OCR-tekstekstraksjon og dokumentanalyse

Open Source Java OCR-bibliotek for å inkorporere OCR-funksjoner i Java-apper og tillater uttrekking av tekst fra bilder så vel som skannede dokumenter.

I dagens digitale tidsalder har Optical Character Recognition (OCR) blitt et viktig verktøy for å trekke ut tekst fra bilder og skannede dokumenter. OCR-teknologi muliggjør konvertering av trykt eller håndskrevet tekst til maskinlesbare data, noe som åpner for mange muligheter for dokumentanalyse, datautvinning og automatisering. Blant de mange OCR-løsningene som er tilgjengelige, skiller Tess4J seg ut som et kraftig åpen kildekode-bibliotek som kombinerer allsidigheten til Tesseract OCR-motoren med enkelheten til Java-programmering.

Tess4J-biblioteket gir Java-utviklere mulighet til å integrere OCR-funksjoner sømløst i applikasjonene sine. Det er en Java-innpakning for Tesseract, en OCR-motor opprinnelig utviklet av Hewlett-Packard og for tiden vedlikeholdt av Google. Tess4J utnytter Tesseracts OCR-motor, kjent for sin nøyaktighet. Den bruker avanserte algoritmer og maskinlæringsteknikker for å oppnå pålitelig tekstutvinning fra bilder, og sikre resultater av høy kvalitet. Den muliggjør OCR-integrering i Java-applikasjoner, noe som gjør den kompatibel med forskjellige plattformer, inkludert Windows, Linux og macOS.

Tess4J gir en enkel og godt dokumentert API, som gjør det enkelt for utviklere å integrere OCR-funksjoner i Java-applikasjonene sine. Tess4J er et allsidig og robust åpen kildekode-bibliotek som gir utviklere mulighet til å integrere kraftige OCR-funksjoner i Java-applikasjonene sine. Med støtte for flere språk, bildeforbehandlingsfunksjoner, PDF-konverteringsmuligheter og system for tillitsscoring, gir Tess4J en effektiv og pålitelig løsning for tekstutvinning og dokumentanalyse.

Previous Next

Kom i gang med Tess4J

Den anbefalte måten å installere Tess4J på er å bruke Maven. Bruk følgende kommando for en jevn installasjon.

Maven Dependency for Tess4J


<dependencies>
	<dependency>
	<groupId>net.sourceforge.tess4j</groupId>
	<artifactId>tess4j;/artifactId>
	<version>X.X.X</version>
    </dependency>
</dependencies>

Installer Tess4J via GitHub

 git clone https://github.com/nguyenq/tess4j.git  

Du kan også installere det manuelt; last ned de siste utgivelsesfilene direkte fra GitHub-depotet.

Innholdsekstraksjon via Java API

Åpen kildekode Tess4J-biblioteket lar programvareutviklere trekke ut tekst fra ulike typer bilder i Java-applikasjoner. Biblioteket gjør det mulig å trekke ut tekst fra bilder, slik at applikasjoner kan analysere og behandle tekstinnholdet. Denne funksjonen finner applikasjoner innen områder som sentimentanalyse, tekstoppsummering og informasjonsinnhenting. Biblioteket gjør det også enkelt å laste inn Tesseract OCR-motoren, utføre innholdsutvinning på det angitte bildet og skrive ut den utpakkede teksten til konsollen.

Utfør innholdsutvinning ved hjelp av Java OCR Library

import net.sourceforge.tess4j.Tesseract;
import net.sourceforge.tess4j.TesseractException;

public class ContentExtractionExample {
    public static void main(String[] args) {
        // Path to the Tesseract OCR installation directory
        String tessDataPath = "path/to/tesseract";

        // Initialize Tesseract instance
        Tesseract tesseract = new Tesseract();
        tesseract.setDatapath(tessDataPath);

        try {
            // Set the language for OCR (e.g., "eng" for English)
            tesseract.setLanguage("eng");

            // Path to the image file for content extraction
            String imagePath = "path/to/image.jpg";

            // Perform content extraction
            String extractedText = tesseract.doOCR(new File(imagePath));
            System.out.println(extractedText);
        } catch (TesseractException e) {
            e.printStackTrace();
        }
    }
}

PDF-konvertering til ren tekst via Java API

Åpen kildekode Tess4J-biblioteket har gitt komplett funksjonalitet for å laste og konvertere PDF-dokumenter til en ren tekst i Java-applikasjoner. Tess4J kan konvertere søkbare PDF-dokumenter til ren tekst, slik at utviklere kan trekke ut innhold fra PDF-filer og utføre ytterligere analyser eller databehandling. Følgende eksempel viser hvordan programvareutviklere kan konvertere en eksisterende PDF-fil til ren tekst i Java-applikasjoner.

Hvordan konvertere en eksisterende PDF-fil til ren tekst?

import net.sourceforge.tess4j.Tesseract;
import net.sourceforge.tess4j.TesseractException;
import org.apache.pdfbox.pdmodel.PDDocument;
import org.apache.pdfbox.text.PDFTextStripper;

import java.io.File;
import java.io.IOException;

public class PDFToTextConverter {
    public static void main(String[] args) {
        // Path to the PDF file
        String filePath = "path/to/your/pdf/file.pdf";

        try {
            // Load the PDF document
            PDDocument document = PDDocument.load(new File(filePath));

            // Create an instance of Tesseract OCR engine
            Tesseract tesseract = new Tesseract();

            // Set the path to the tessdata directory (containing language data)
            tesseract.setDatapath("path/to/your/tessdata/directory");

            // Iterate over each page of the PDF document
            for (int pageIndex = 0; pageIndex < document.getNumberOfPages(); pageIndex++) {
                // Extract the text from the current page
                PDFTextStripper stripper = new PDFTextStripper();
                stripper.setStartPage(pageIndex + 1);
                stripper.setEndPage(pageIndex + 1);
                String pageText = stripper.getText(document);

                // Perform OCR on the extracted text
                String ocrText = tesseract.doOCR(pageText);

                // Output the OCR result
                System.out.println("Page " + (pageIndex + 1) + " OCR Result:");
                System.out.println(ocrText);
                System.out.println("--------------------------------------");
            }

            // Close the PDF document
            document.close();
        } catch (IOException | TesseractException e) {
            e.printStackTrace();
        }
    }
}

 Norsk