1. produkty
  2.   OCR
  3.   Java
  4.   Tess4J
 
  

Zdarma Java knihovna pro extrakci textu OCR a analýzu dokumentů

Open Source Java OCR Library pro začlenění funkcí OCR do aplikací Java a umožňuje extrahování textu z obrázků i naskenovaných dokumentů.

V dnešní digitální době se optické rozpoznávání znaků (OCR) stalo základním nástrojem pro extrahování textu z obrázků a naskenovaných dokumentů. Technologie OCR umožňuje převod tištěného nebo ručně psaného textu na strojově čitelná data, čímž otevírá řadu možností pro analýzu dokumentů, extrakci dat a automatizaci. Mezi mnoha dostupnými řešeními OCR vyniká Tess4J jako výkonná knihovna s otevřeným zdrojovým kódem, která kombinuje všestrannost enginu Tesseract OCR s jednoduchostí programování v jazyce Java.

Knihovna Tess4J umožňuje vývojářům jazyka Java bezproblémově začlenit funkce OCR do svých aplikací. Jedná se o Java wrapper pro Tesseract, OCR engine původně vyvinutý společností Hewlett-Packard a v současnosti spravovaný společností Google. Tess4J využívá OCR engine Tesseract, známý svou přesností. Využívá pokročilé algoritmy a techniky strojového učení k dosažení spolehlivé extrakce textu z obrázků, což zajišťuje vysoce kvalitní výsledky. Umožňuje integraci OCR do aplikací Java, díky čemuž je kompatibilní s různými platformami, včetně Windows, Linux a macOS.

Tess4J poskytuje přímočaré a dobře zdokumentované API, které vývojářům usnadňuje integraci funkcí OCR do jejich aplikací Java. Tess4J je všestranná a robustní knihovna s otevřeným zdrojovým kódem, která umožňuje vývojářům integrovat výkonné funkce OCR do jejich aplikací Java. Díky podpoře více jazyků, funkcím předběžného zpracování obrázků, možnostem konverze PDF a systému hodnocení spolehlivosti poskytuje Tess4J efektivní a spolehlivé řešení pro extrakci textu a analýzu dokumentů.

Previous Next

Začínáme s Tess4J

Doporučený způsob instalace Tess4J je použití Maven. Pro bezproblémovou instalaci použijte prosím následující příkaz.

Závislost Maven pro Tess4J


<dependencies>
	<dependency>
	<groupId>net.sourceforge.tess4j</groupId>
	<artifactId>tess4j;/artifactId>
	<version>X.X.X</version>
    </dependency>
</dependencies>

Nainstalujte Tess4J přes GitHub

 klon git https://github.com/nguyenq/tess4j.git 

Můžete jej také nainstalovat ručně; stáhněte si soubory nejnovější verze přímo z úložiště GitHub.

Extrakce obsahu prostřednictvím rozhraní Java API

Open source knihovna Tess4J umožňuje vývojářům softwaru extrahovat text z různých typů obrázků v aplikacích Java. Knihovna umožňuje extrakci textu z obrázků a umožňuje aplikacím analyzovat a zpracovávat textový obsah. Tato schopnost nachází uplatnění v oblastech, jako je analýza sentimentu, sumarizace textu a vyhledávání informací. Knihovna také usnadňuje načtení enginu Tesseract OCR, provedení extrakce obsahu na zadaném obrázku a vytištění extrahovaného textu na konzoli.

Proveďte extrakci obsahu pomocí knihovny Java OCR

import net.sourceforge.tess4j.Tesseract;
import net.sourceforge.tess4j.TesseractException;

public class ContentExtractionExample {
    public static void main(String[] args) {
        // Path to the Tesseract OCR installation directory
        String tessDataPath = "path/to/tesseract";

        // Initialize Tesseract instance
        Tesseract tesseract = new Tesseract();
        tesseract.setDatapath(tessDataPath);

        try {
            // Set the language for OCR (e.g., "eng" for English)
            tesseract.setLanguage("eng");

            // Path to the image file for content extraction
            String imagePath = "path/to/image.jpg";

            // Perform content extraction
            String extractedText = tesseract.doOCR(new File(imagePath));
            System.out.println(extractedText);
        } catch (TesseractException e) {
            e.printStackTrace();
        }
    }
}

Konverze PDF na prostý text prostřednictvím rozhraní Java API

Open source knihovna Tess4J poskytuje kompletní funkčnost pro načítání a převod PDF dokumentů na prostý text v aplikacích Java. Tess4J dokáže převést prohledávatelné dokumenty PDF na prostý text, což vývojářům umožňuje extrahovat obsah ze souborů PDF a provádět další analýzy nebo zpracování dat. Následující příklad ukazuje, jak mohou vývojáři softwaru převést existující soubor PDF na prostý text v aplikacích Java.

Jak převést existující soubor PDF na prostý text?

import net.sourceforge.tess4j.Tesseract;
import net.sourceforge.tess4j.TesseractException;
import org.apache.pdfbox.pdmodel.PDDocument;
import org.apache.pdfbox.text.PDFTextStripper;

import java.io.File;
import java.io.IOException;

public class PDFToTextConverter {
    public static void main(String[] args) {
        // Path to the PDF file
        String filePath = "path/to/your/pdf/file.pdf";

        try {
            // Load the PDF document
            PDDocument document = PDDocument.load(new File(filePath));

            // Create an instance of Tesseract OCR engine
            Tesseract tesseract = new Tesseract();

            // Set the path to the tessdata directory (containing language data)
            tesseract.setDatapath("path/to/your/tessdata/directory");

            // Iterate over each page of the PDF document
            for (int pageIndex = 0; pageIndex < document.getNumberOfPages(); pageIndex++) {
                // Extract the text from the current page
                PDFTextStripper stripper = new PDFTextStripper();
                stripper.setStartPage(pageIndex + 1);
                stripper.setEndPage(pageIndex + 1);
                String pageText = stripper.getText(document);

                // Perform OCR on the extracted text
                String ocrText = tesseract.doOCR(pageText);

                // Output the OCR result
                System.out.println("Page " + (pageIndex + 1) + " OCR Result:");
                System.out.println(ocrText);
                System.out.println("--------------------------------------");
            }

            // Close the PDF document
            document.close();
        } catch (IOException | TesseractException e) {
            e.printStackTrace();
        }
    }
}

 Čeština