1. Táirgí
  2.   OCR
  3.   Java
  4.   Tess4J
 
  

Leabharlann Java saor in aisce le haghaidh Baint Téacs OCR agus Anailís Doiciméad

Foinse Oscailte Leabharlann Java OCR chun cumais OCR a Ionchorprú i apps Java agus ceadaíonn sé Téacs a Bhaint as Íomhánna chomh maith le Doiciméid Scanta.

In ré dhigiteach an lae inniu, tá Aithint Optúil Carachtair (OCR) anois ina uirlis riachtanach chun téacs a bhaint as íomhánna agus as doiciméid scanta. Cumasaíonn teicneolaíocht OCR téacs clóite nó lámhscríofa a thiontú go sonraí meaisín-inléite, rud a fhágann go leor féidearthachtaí maidir le hanailís doiciméad, asbhaint sonraí, agus uathoibriú. I measc an iliomad réiteach OCR atá ar fáil, seasann Tess4J amach mar leabharlann chumhachtach foinse oscailte a chomhcheanglaíonn solúbthacht an innill Tesseract OCR le simplíocht ríomhchlárú Java.

Cumhachtaíonn leabharlann Tess4J d’fhorbróirí Java cumais OCR a ionchorprú gan uaim ina bhfeidhmchláir. Is fillteán Java é do Tesseract, inneall OCR a d'fhorbair Hewlett-Packard ar dtús agus atá á chothabháil ag Google faoi láthair. Úsáideann Tess4J inneall OCR Tesseract, a bhfuil cáil air as a chruinneas. Úsáideann sé ard-halgartaim agus teicnící meaisínfhoghlama chun eastóscadh iontaofa téacs a bhaint amach ó íomhánna, ag cinntiú torthaí ardchaighdeáin. Cumasaíonn sé comhtháthú OCR i bhfeidhmchláir Java, rud a fhágann go bhfuil sé comhoiriúnach le hardáin éagsúla, lena n-áirítear Windows, Linux, agus macOS.

Soláthraíonn Tess4J API simplí agus dea-dhoiciméadaithe, rud a fhágann go bhfuil sé éasca d’fhorbróirí cumais OCR a chomhtháthú ina bhfeidhmchláir Java. Is leabharlann foinse oscailte ildánach agus láidir í Tess4J a chuireann ar chumas forbróirí cumais OCR chumhachtacha a chomhtháthú ina bhfeidhmchláir Java. Leis an tacaíocht a thugann sé d'iltheangacha, gnéithe réamhphróiseála íomhá, cumais tiontaithe PDF, agus córas scórála muiníne, soláthraíonn Tess4J réiteach éifeachtach iontaofa le haghaidh eastóscadh téacs agus anailís doiciméad.

Previous Next

Tús le Tess4J

Is é Maven an bealach molta chun Tess4J a shuiteáil. Bain úsáid as an ordú seo a leanas le haghaidh suiteáil rianúil.

Cleithiúnaí Maven do Tess4J


<dependencies>
	<dependency>
	<groupId>net.sourceforge.tess4j</groupId>
	<artifactId>tess4j;/artifactId>
	<version>X.X.X</version>
    </dependency>
</dependencies>

Suiteáil Tess4J trí GitHub

 git clone https://github.com/nguyenq/tess4j.git  

Is féidir leat é a shuiteáil de láimh freisin; íoslódáil na comhaid eisithe is déanaí go díreach ó GitHub stór.

Eastóscadh Ábhar trí Java API

Ceadaíonn leabharlann foinse oscailte Tess4J d’fhorbróirí bogearraí téacs a bhaint as cineálacha éagsúla íomhánna laistigh d’fheidhmchláir Java. Cumasaíonn an leabharlann téacs a bhaint as íomhánna, rud a ligeann d’fheidhmchláir anailís agus próiseáil a dhéanamh ar an ábhar téacs. Aimsíonn an cumas seo feidhmchláir i réimsí cosúil le hanailís meon, achoimre téacs, agus aisghabháil faisnéise. Déanann an leabharlann éasca freisin an t-inneall Tesseract OCR a luchtú, eastóscadh inneachair a dhéanamh ar an íomhá sonraithe, agus an téacs a bhaintear a phriontáil chuig an consól.

Déan Eastóscadh Ábhar ag úsáid Leabharlann Java OCR

import net.sourceforge.tess4j.Tesseract;
import net.sourceforge.tess4j.TesseractException;

public class ContentExtractionExample {
    public static void main(String[] args) {
        // Path to the Tesseract OCR installation directory
        String tessDataPath = "path/to/tesseract";

        // Initialize Tesseract instance
        Tesseract tesseract = new Tesseract();
        tesseract.setDatapath(tessDataPath);

        try {
            // Set the language for OCR (e.g., "eng" for English)
            tesseract.setLanguage("eng");

            // Path to the image file for content extraction
            String imagePath = "path/to/image.jpg";

            // Perform content extraction
            String extractedText = tesseract.doOCR(new File(imagePath));
            System.out.println(extractedText);
        } catch (TesseractException e) {
            e.printStackTrace();
        }
    }
}

Tiontú PDF go Gnáth-théacs trí Java API

Chuir leabharlann foinse oscailte Tess4J feidhm iomlán ar fáil chun doiciméid PDF a luchtú agus a thiontú ina ngnáth-théacs laistigh d’fheidhmchláir Java. Is féidir le Tess4J doiciméid inchuardaithe PDF a thiontú ina ngnáth-théacs, rud a chuireann ar chumas forbróirí ábhar a bhaint as comhaid PDF agus anailís bhreise nó próiseáil sonraí a dhéanamh. Léiríonn an sampla seo a leanas conas is féidir le forbróirí bogearraí comhad PDF atá ann cheana a thiontú go gnáth-théacs laistigh d'fheidhmchláir Java.

Conas Comhad PDF Reatha a Thiontú go Gnáth-théacs?

import net.sourceforge.tess4j.Tesseract;
import net.sourceforge.tess4j.TesseractException;
import org.apache.pdfbox.pdmodel.PDDocument;
import org.apache.pdfbox.text.PDFTextStripper;

import java.io.File;
import java.io.IOException;

public class PDFToTextConverter {
    public static void main(String[] args) {
        // Path to the PDF file
        String filePath = "path/to/your/pdf/file.pdf";

        try {
            // Load the PDF document
            PDDocument document = PDDocument.load(new File(filePath));

            // Create an instance of Tesseract OCR engine
            Tesseract tesseract = new Tesseract();

            // Set the path to the tessdata directory (containing language data)
            tesseract.setDatapath("path/to/your/tessdata/directory");

            // Iterate over each page of the PDF document
            for (int pageIndex = 0; pageIndex < document.getNumberOfPages(); pageIndex++) {
                // Extract the text from the current page
                PDFTextStripper stripper = new PDFTextStripper();
                stripper.setStartPage(pageIndex + 1);
                stripper.setEndPage(pageIndex + 1);
                String pageText = stripper.getText(document);

                // Perform OCR on the extracted text
                String ocrText = tesseract.doOCR(pageText);

                // Output the OCR result
                System.out.println("Page " + (pageIndex + 1) + " OCR Result:");
                System.out.println(ocrText);
                System.out.println("--------------------------------------");
            }

            // Close the PDF document
            document.close();
        } catch (IOException | TesseractException e) {
            e.printStackTrace();
        }
    }
}

 Gaeilge