1. Produkter
  2.   OCR
  3.   Java
  4.   Tess4J
 
  

Gratis Java-bibliotek til OCR-tekstekstraktion og dokumentanalyse

Open Source Java OCR-bibliotek til inkorporering af OCR-funktioner i Java-apps og tillader udtrækning af tekst fra billeder såvel som scannede dokumenter.

I nutidens digitale tidsalder er Optical Character Recognition (OCR) blevet et vigtigt værktøj til at udtrække tekst fra billeder og scannede dokumenter. OCR-teknologi muliggør konvertering af trykt eller håndskrevet tekst til maskinlæsbare data, hvilket åbner op for adskillige muligheder for dokumentanalyse, dataudtræk og automatisering. Blandt de mange tilgængelige OCR-løsninger skiller Tess4J sig ud som et kraftfuldt open source-bibliotek, der kombinerer alsidigheden af Tesseract OCR-motoren med enkelheden ved Java-programmering.

Tess4J-biblioteket giver Java-udviklere mulighed for at inkorporere OCR-funktioner problemfrit i deres applikationer. Det er en Java-indpakning til Tesseract, en OCR-motor, der oprindeligt er udviklet af Hewlett-Packard og i øjeblikket vedligeholdes af Google. Tess4J udnytter Tesseracts OCR-motor, der er kendt for sin nøjagtighed. Den anvender avancerede algoritmer og maskinlæringsteknikker for at opnå pålidelig tekstudtrækning fra billeder, hvilket sikrer resultater af høj kvalitet. Det muliggør OCR-integration i Java-applikationer, hvilket gør det kompatibelt med forskellige platforme, herunder Windows, Linux og macOS.

Tess4J leverer en ligetil og veldokumenteret API, der gør det nemt for udviklere at integrere OCR-funktioner i deres Java-applikationer. Tess4J er et alsidigt og robust open source-bibliotek, der giver udviklere mulighed for at integrere kraftfulde OCR-funktioner i deres Java-applikationer. Med sin understøttelse af flere sprog, billedforbehandlingsfunktioner, PDF-konverteringsmuligheder og tillidsscoringssystem giver Tess4J en effektiv og pålidelig løsning til tekstudtræk og dokumentanalyse.

Previous Next

Kom godt i gang med Tess4J

Den anbefalede måde at installere Tess4J på er at bruge Maven. Brug venligst følgende kommando for en problemfri installation.

Maven Dependency for Tess4J


<dependencies>
	<dependency>
	<groupId>net.sourceforge.tess4j</groupId>
	<artifactId>tess4j;/artifactId>
	<version>X.X.X</version>
    </dependency>
</dependencies>

Installer Tess4J via GitHub

 git clone https://github.com/nguyenq/tess4j.git  

Du kan også installere det manuelt; download de seneste udgivelsesfiler direkte fra GitHub-lageret.

Indholdsekstraktion via Java API

Open source Tess4J-biblioteket giver softwareudviklere mulighed for at udtrække tekst fra forskellige typer billeder inde i Java-applikationer. Biblioteket muliggør udtrækning af tekst fra billeder, hvilket gør det muligt for applikationer at analysere og behandle tekstindholdet. Denne kapacitet finder anvendelser inden for områder som følelsesanalyse, tekstresumé og informationssøgning. Biblioteket gør det også nemt at indlæse Tesseract OCR-motoren, udføre indholdsudtrækning på det angivne billede og udskrive den udpakkede tekst til konsollen.

Udfør indholdsudtræk ved hjælp af Java OCR Library

import net.sourceforge.tess4j.Tesseract;
import net.sourceforge.tess4j.TesseractException;

public class ContentExtractionExample {
    public static void main(String[] args) {
        // Path to the Tesseract OCR installation directory
        String tessDataPath = "path/to/tesseract";

        // Initialize Tesseract instance
        Tesseract tesseract = new Tesseract();
        tesseract.setDatapath(tessDataPath);

        try {
            // Set the language for OCR (e.g., "eng" for English)
            tesseract.setLanguage("eng");

            // Path to the image file for content extraction
            String imagePath = "path/to/image.jpg";

            // Perform content extraction
            String extractedText = tesseract.doOCR(new File(imagePath));
            System.out.println(extractedText);
        } catch (TesseractException e) {
            e.printStackTrace();
        }
    }
}

PDF-konvertering til almindelig tekst via Java API

Open source Tess4J-biblioteket har leveret komplet funktionalitet til indlæsning og konvertering af PDF-dokumenter til almindelig tekst i Java-applikationer. Tess4J kan konvertere søgbare PDF-dokumenter til almindelig tekst, hvilket gør det muligt for udviklere at udtrække indhold fra PDF-filer og udføre yderligere analyse eller databehandling. Følgende eksempel viser, hvordan softwareudviklere kan konvertere en eksisterende PDF-fil til almindelig tekst i Java-applikationer.

Hvordan konverteres en eksisterende PDF-fil til almindelig tekst?

import net.sourceforge.tess4j.Tesseract;
import net.sourceforge.tess4j.TesseractException;
import org.apache.pdfbox.pdmodel.PDDocument;
import org.apache.pdfbox.text.PDFTextStripper;

import java.io.File;
import java.io.IOException;

public class PDFToTextConverter {
    public static void main(String[] args) {
        // Path to the PDF file
        String filePath = "path/to/your/pdf/file.pdf";

        try {
            // Load the PDF document
            PDDocument document = PDDocument.load(new File(filePath));

            // Create an instance of Tesseract OCR engine
            Tesseract tesseract = new Tesseract();

            // Set the path to the tessdata directory (containing language data)
            tesseract.setDatapath("path/to/your/tessdata/directory");

            // Iterate over each page of the PDF document
            for (int pageIndex = 0; pageIndex < document.getNumberOfPages(); pageIndex++) {
                // Extract the text from the current page
                PDFTextStripper stripper = new PDFTextStripper();
                stripper.setStartPage(pageIndex + 1);
                stripper.setEndPage(pageIndex + 1);
                String pageText = stripper.getText(document);

                // Perform OCR on the extracted text
                String ocrText = tesseract.doOCR(pageText);

                // Output the OCR result
                System.out.println("Page " + (pageIndex + 1) + " OCR Result:");
                System.out.println(ocrText);
                System.out.println("--------------------------------------");
            }

            // Close the PDF document
            document.close();
        } catch (IOException | TesseractException e) {
            e.printStackTrace();
        }
    }
}

 Dansk