1. Termékek
  2.   OCR
  3.   Java
  4.   Tess4J
 
  

Ingyenes Java-könyvtár OCR-szöveg-kivonáshoz és dokumentumelemzéshez

Nyílt forráskódú Java OCR-könyvtár az OCR-képességek Java-alkalmazásokba való beépítéséhez, és lehetővé teszi szövegek kinyerését képekből és szkennelt dokumentumokból.

A mai digitális korban az optikai karakterfelismerés (OCR) a szövegek képekből és beolvasott dokumentumokból történő kiemelésének alapvető eszközévé vált. Az OCR technológia lehetővé teszi a nyomtatott vagy kézzel írt szövegek géppel olvasható adatokká történő átalakítását, ami számos lehetőséget nyit meg a dokumentumelemzés, adatkinyerés és automatizálás terén. A számos elérhető OCR-megoldás közül a Tess4J egy erőteljes nyílt forráskódú könyvtárként tűnik ki, amely a Tesseract OCR-motor sokoldalúságát a Java programozás egyszerűségével ötvözi.

A Tess4J könyvtár lehetővé teszi a Java fejlesztők számára, hogy az OCR képességeket zökkenőmentesen építsék be alkalmazásaikba. Ez egy Java-burkoló a Tesseracthoz, egy OCR-motorhoz, amelyet eredetileg a Hewlett-Packard fejlesztett ki, és jelenleg a Google karbantartja. A Tess4J a Tesseract OCR motorját használja, amely a pontosságáról híres. Speciális algoritmusokat és gépi tanulási technikákat alkalmaz, hogy megbízható szövegkivonást érjen el a képekből, így biztosítva a kiváló minőségű eredményeket. Lehetővé teszi az OCR-integrációt a Java-alkalmazásokban, így kompatibilis a különböző platformokkal, beleértve a Windowst, a Linuxot és a macOS-t.

A Tess4J egy egyszerű és jól dokumentált API-t biztosít, amely megkönnyíti a fejlesztők számára az OCR-képességek Java-alkalmazásaikba való integrálását. A Tess4J egy sokoldalú és robusztus nyílt forráskódú könyvtár, amely lehetővé teszi a fejlesztők számára, hogy erőteljes OCR-képességeket integráljanak Java-alkalmazásaikba. Több nyelv támogatásával, kép-előfeldolgozási funkciókkal, PDF-konverziós képességekkel és megbízhatósági pontozási rendszerrel a Tess4J hatékony és megbízható megoldást kínál a szövegkivonáshoz és a dokumentumelemzéshez.

Previous Next

Kezdő lépések a Tess4J-vel

A Tess4J telepítésének javasolt módja a Maven használata. Kérjük, használja a következő parancsot a zökkenőmentes telepítés érdekében.

Maven Dependency for Tess4J


<dependencies>
	<dependency>
	<groupId>net.sourceforge.tess4j</groupId>
	<artifactId>tess4j;/artifactId>
	<version>X.X.X</version>
    </dependency>
</dependencies>

Tess4J telepítése GitHubon keresztül

 git clone https://github.com/nguyenq/tess4j.git  

Kézzel is telepítheti; töltse le a legújabb kiadású fájlokat közvetlenül a GitHub tárhelyről.

Tartalom kinyerése Java API-n keresztül

A nyílt forráskódú Tess4J könyvtár lehetővé teszi a szoftverfejlesztők számára, hogy szöveget vonjanak ki a Java alkalmazásokon belüli különféle típusú képekből. A könyvtár lehetővé teszi a szövegek kinyerését a képekből, lehetővé téve az alkalmazások számára a szöveges tartalom elemzését és feldolgozását. Ez a képesség olyan területeken talál alkalmazást, mint a hangulatelemzés, szövegösszegzés és információkeresés. A könyvtár emellett megkönnyíti a Tesseract OCR motor betöltését, a tartalom kibontását a megadott képen, és a kivont szöveg kinyomtatását a konzolra.

Végezze el a tartalom kibontását a Java OCR Library segítségével

import net.sourceforge.tess4j.Tesseract;
import net.sourceforge.tess4j.TesseractException;

public class ContentExtractionExample {
    public static void main(String[] args) {
        // Path to the Tesseract OCR installation directory
        String tessDataPath = "path/to/tesseract";

        // Initialize Tesseract instance
        Tesseract tesseract = new Tesseract();
        tesseract.setDatapath(tessDataPath);

        try {
            // Set the language for OCR (e.g., "eng" for English)
            tesseract.setLanguage("eng");

            // Path to the image file for content extraction
            String imagePath = "path/to/image.jpg";

            // Perform content extraction
            String extractedText = tesseract.doOCR(new File(imagePath));
            System.out.println(extractedText);
        } catch (TesseractException e) {
            e.printStackTrace();
        }
    }
}

PDF konvertálás egyszerű szöveggé Java API-n keresztül

A nyílt forráskódú Tess4J könyvtár teljes funkcionalitást biztosít a PDF-dokumentumok betöltéséhez és sima szöveggé konvertálásához Java alkalmazásokon belül. A Tess4J képes konvertálni a kereshető PDF-dokumentumokat egyszerű szöveggé, lehetővé téve a fejlesztők számára, hogy tartalmat vonjanak ki PDF-fájlokból, és további elemzéseket vagy adatfeldolgozást végezzenek. A következő példa bemutatja, hogy a szoftverfejlesztők hogyan alakíthatnak át egy meglévő PDF-fájlt egyszerű szöveggé a Java alkalmazásokon belül.

Hogyan alakíthatok át egy meglévő PDF-fájlt egyszerű szöveggé?

import net.sourceforge.tess4j.Tesseract;
import net.sourceforge.tess4j.TesseractException;
import org.apache.pdfbox.pdmodel.PDDocument;
import org.apache.pdfbox.text.PDFTextStripper;

import java.io.File;
import java.io.IOException;

public class PDFToTextConverter {
    public static void main(String[] args) {
        // Path to the PDF file
        String filePath = "path/to/your/pdf/file.pdf";

        try {
            // Load the PDF document
            PDDocument document = PDDocument.load(new File(filePath));

            // Create an instance of Tesseract OCR engine
            Tesseract tesseract = new Tesseract();

            // Set the path to the tessdata directory (containing language data)
            tesseract.setDatapath("path/to/your/tessdata/directory");

            // Iterate over each page of the PDF document
            for (int pageIndex = 0; pageIndex < document.getNumberOfPages(); pageIndex++) {
                // Extract the text from the current page
                PDFTextStripper stripper = new PDFTextStripper();
                stripper.setStartPage(pageIndex + 1);
                stripper.setEndPage(pageIndex + 1);
                String pageText = stripper.getText(document);

                // Perform OCR on the extracted text
                String ocrText = tesseract.doOCR(pageText);

                // Output the OCR result
                System.out.println("Page " + (pageIndex + 1) + " OCR Result:");
                System.out.println(ocrText);
                System.out.println("--------------------------------------");
            }

            // Close the PDF document
            document.close();
        } catch (IOException | TesseractException e) {
            e.printStackTrace();
        }
    }
}

 Magyar