1. Produkti
  2.   OCR
  3.   Java
  4.   Tess4J
 
  

Bezmaksas Java bibliotēka OCR teksta iegūšanai un dokumentu analīzei

Atvērtā pirmkoda Java OCR bibliotēka OCR iespēju iekļaušanai Java lietotnēs un ļauj izvilkt tekstu no attēliem, kā arī skenētajiem dokumentiem.

Mūsdienu digitālajā laikmetā optiskā rakstzīmju atpazīšana (OCR) ir kļuvusi par būtisku rīku teksta izvilkšanai no attēliem un skenētiem dokumentiem. OCR tehnoloģija ļauj pārveidot drukātu vai ar roku rakstītu tekstu mašīnlasāmos datos, paverot daudzas iespējas dokumentu analīzei, datu ieguvei un automatizācijai. Starp daudzajiem pieejamajiem OCR risinājumiem Tess4J izceļas kā jaudīga atvērtā pirmkoda bibliotēka, kas apvieno Tesseract OCR dzinēja daudzpusību ar Java programmēšanas vienkāršību.

Tess4J bibliotēka sniedz Java izstrādātājiem iespēju savās lietojumprogrammās nemanāmi iekļaut OCR iespējas. Tas ir Java iesaiņojums Tesseract, OCR dzinējam, kuru sākotnēji izstrādāja Hewlett-Packard un pašlaik uztur Google. Tess4J izmanto Tesseract OCR dzinēju, kas ir slavens ar savu precizitāti. Tajā tiek izmantoti uzlaboti algoritmi un mašīnmācīšanās metodes, lai panāktu uzticamu teksta izvilkšanu no attēliem, nodrošinot augstas kvalitātes rezultātus. Tas nodrošina OCR integrāciju Java lietojumprogrammās, padarot to saderīgu ar dažādām platformām, tostarp Windows, Linux un macOS.

Tess4J nodrošina vienkāršu un labi dokumentētu API, kas ļauj izstrādātājiem viegli integrēt OCR iespējas savās Java lietojumprogrammās. Tess4J ir daudzpusīga un stabila atvērtā pirmkoda bibliotēka, kas sniedz izstrādātājiem iespēju savās Java lietojumprogrammās integrēt jaudīgas OCR iespējas. Ar savu atbalstu vairākām valodām, attēlu priekšapstrādes līdzekļiem, PDF konvertēšanas iespējām un uzticamības vērtēšanas sistēmu Tess4J nodrošina efektīvu un uzticamu risinājumu teksta izvilkšanai un dokumentu analīzei.

Previous Next

Darba sākšana ar Tess4J

Ieteicamais veids, kā instalēt Tess4J, ir izmantot Maven. Lūdzu, izmantojiet šo komandu vienmērīgai instalēšanai.

Maven atkarība no Tess4J


<dependencies>
	<dependency>
	<groupId>net.sourceforge.tess4j</groupId>
	<artifactId>tess4j;/artifactId>
	<version>X.X.X</version>
    </dependency>
</dependencies>

Instalējiet Tess4J, izmantojot GitHub

 git clone https://github.com/nguyenq/tess4j.git  

Varat to instalēt arī manuāli; lejupielādējiet jaunāko laidienu failus tieši no GitHub krātuves.

Satura ieguve, izmantojot Java API

Atvērtā pirmkoda Tess4J bibliotēka ļauj programmatūras izstrādātājiem izvilkt tekstu no dažāda veida attēliem Java lietojumprogrammās. Bibliotēka ļauj iegūt tekstu no attēliem, ļaujot lietojumprogrammām analizēt un apstrādāt teksta saturu. Šī iespēja atrod pielietojumu tādās jomās kā sentimenta analīze, teksta apkopošana un informācijas izguve. Bibliotēka arī ļauj ērti ielādēt Tesseract OCR dzinēju, veikt satura izvilkšanu norādītajā attēlā un izdrukāto tekstu konsolē.

Veiciet satura izvilkšanu, izmantojot Java OCR bibliotēku

import net.sourceforge.tess4j.Tesseract;
import net.sourceforge.tess4j.TesseractException;

public class ContentExtractionExample {
    public static void main(String[] args) {
        // Path to the Tesseract OCR installation directory
        String tessDataPath = "path/to/tesseract";

        // Initialize Tesseract instance
        Tesseract tesseract = new Tesseract();
        tesseract.setDatapath(tessDataPath);

        try {
            // Set the language for OCR (e.g., "eng" for English)
            tesseract.setLanguage("eng");

            // Path to the image file for content extraction
            String imagePath = "path/to/image.jpg";

            // Perform content extraction
            String extractedText = tesseract.doOCR(new File(imagePath));
            System.out.println(extractedText);
        } catch (TesseractException e) {
            e.printStackTrace();
        }
    }
}

PDF konvertēšana uz vienkāršu tekstu, izmantojot Java API

Atvērtā pirmkoda Tess4J bibliotēka ir nodrošinājusi pilnīgu funkcionalitāti PDF dokumentu ielādei un konvertēšanai vienkāršā tekstā Java lietojumprogrammās. Tess4J var pārvērst meklējamus PDF dokumentus vienkāršā tekstā, ļaujot izstrādātājiem iegūt saturu no PDF failiem un veikt turpmāku analīzi vai datu apstrādi. Šis piemērs parāda, kā programmatūras izstrādātāji var pārvērst esošu PDF failu vienkāršā tekstā Java lietojumprogrammās.

Kā esošu PDF failu pārveidot par vienkāršu tekstu?

import net.sourceforge.tess4j.Tesseract;
import net.sourceforge.tess4j.TesseractException;
import org.apache.pdfbox.pdmodel.PDDocument;
import org.apache.pdfbox.text.PDFTextStripper;

import java.io.File;
import java.io.IOException;

public class PDFToTextConverter {
    public static void main(String[] args) {
        // Path to the PDF file
        String filePath = "path/to/your/pdf/file.pdf";

        try {
            // Load the PDF document
            PDDocument document = PDDocument.load(new File(filePath));

            // Create an instance of Tesseract OCR engine
            Tesseract tesseract = new Tesseract();

            // Set the path to the tessdata directory (containing language data)
            tesseract.setDatapath("path/to/your/tessdata/directory");

            // Iterate over each page of the PDF document
            for (int pageIndex = 0; pageIndex < document.getNumberOfPages(); pageIndex++) {
                // Extract the text from the current page
                PDFTextStripper stripper = new PDFTextStripper();
                stripper.setStartPage(pageIndex + 1);
                stripper.setEndPage(pageIndex + 1);
                String pageText = stripper.getText(document);

                // Perform OCR on the extracted text
                String ocrText = tesseract.doOCR(pageText);

                // Output the OCR result
                System.out.println("Page " + (pageIndex + 1) + " OCR Result:");
                System.out.println(ocrText);
                System.out.println("--------------------------------------");
            }

            // Close the PDF document
            document.close();
        } catch (IOException | TesseractException e) {
            e.printStackTrace();
        }
    }
}

 Latviski