Ilmainen Java-kirjasto OCR-tekstin purkamiseen ja asiakirja-analyysiin

Avoimen lähdekoodin Java OCR -kirjasto, joka mahdollistaa OCR-ominaisuuksien sisällyttämisen Java-sovelluksiin ja mahdollistaa tekstin purkamisen kuvista ja skannatuista asiakirjoista.

Nykyajan digitaaliaikana optisesta merkintunnistuksesta (OCR) on tullut olennainen työkalu tekstin poimimiseen kuvista ja skannatuista asiakirjoista. OCR-tekniikka mahdollistaa painetun tai käsin kirjoitetun tekstin muuntamisen koneellisesti luettavaksi tiedoiksi, mikä avaa lukuisia mahdollisuuksia dokumenttien analysointiin, tiedon poimimiseen ja automatisointiin. Monien saatavilla olevien OCR-ratkaisujen joukossa Tess4J erottuu tehokkaana avoimen lähdekoodin kirjastona, jossa yhdistyvät Tesseract OCR -moottorin monipuolisuus Java-ohjelmoinnin yksinkertaisuuteen.

Tess4J-kirjasto antaa Java-kehittäjille mahdollisuuden sisällyttää OCR-ominaisuudet saumattomasti sovelluksiinsa. Se on Java-kääre Tesseractille, OCR-moottorille, jonka alun perin kehitti Hewlett-Packardi ja jota tällä hetkellä ylläpitää Google. Tess4J hyödyntää Tesseractin OCR-moottoria, joka on tunnettu tarkkuudestaan. Se käyttää edistyneitä algoritmeja ja koneoppimistekniikoita luotettavan tekstin poimimiseen kuvista, mikä varmistaa korkealaatuiset tulokset. Se mahdollistaa OCR-integroinnin Java-sovelluksiin, mikä tekee siitä yhteensopivan eri alustojen, kuten Windowsin, Linuxin ja macOS:n, kanssa.

Tess4J tarjoaa yksinkertaisen ja hyvin dokumentoidun API:n, jonka avulla kehittäjien on helppo integroida OCR-ominaisuudet Java-sovelluksiinsa. Tess4J on monipuolinen ja vankka avoimen lähdekoodin kirjasto, jonka avulla kehittäjät voivat integroida tehokkaita OCR-ominaisuuksia Java-sovelluksiinsa. Useiden kielten tuella, kuvien esikäsittelyominaisuuksilla, PDF-muunnosominaisuuksilla ja luotettavuuspisteytysjärjestelmällä Tess4J tarjoaa tehokkaan ja luotettavan ratkaisun tekstin poimimiseen ja dokumenttien analysointiin.

Yhdellä silmäyksellä

Yleiskatsaus Tess4J:n ominaisuuksiin.

Ominaisuuksien yleiskatsaus

Suorita OCR
Lisää OCR-ominaisuudet
Tunnista kuvan teksti
Tekstikuvat
Tunnettu kirjasinteksti
Hae PDF-tiedostosta
Yli 100 kieltä
Luo OCR-sovelluksia
Tallenna selaimeen
Poimi teksti
Monisäikeen tuki

Tess4J

Tess4J tukee alla lueteltuja suosittuja kuvatiedostomuotoja.

Lukija

PNG, JPEG, BMP, TIFF, TGA, DICOM

Kirjailija

PNG, JPEG, BMP, TIFF

Tess4J

Alusta riippumattomuus

Tess4J voi toimia minkä tahansa Java-pohjaisen ohjelmointikielen kanssa

Java

Tess4J

Tess4J:n käytön aloittaminen

Suositeltava tapa asentaa Tess4J on Mavenin käyttö. Käytä seuraavaa komentoa sujuvaan asennukseen.

Maven Dependency for Tess4J


<dependencies>
	<dependency>
	<groupId>net.sourceforge.tess4j</groupId>
	<artifactId>tess4j;/artifactId>
	<version>X.X.X</version>
    </dependency>
</dependencies>

Asenna Tess4J GitHubin kautta

 git clone https://github.com/nguyenq/tess4j.git

Voit asentaa sen myös manuaalisesti. lataa uusimmat julkaisutiedostot suoraan GitHub-arkistosta.

Sisällön purkaminen Java-sovellusliittymän kautta

Avoimen lähdekoodin Tess4J-kirjaston avulla ohjelmistokehittäjät voivat poimia tekstiä erityyppisistä kuvista Java-sovelluksissa. Kirjasto mahdollistaa tekstin poimimisen kuvista, jolloin sovellukset voivat analysoida ja käsitellä tekstisisältöä. Tämä ominaisuus löytää sovelluksia sellaisilla aloilla kuin mielialan analysointi, tekstin yhteenveto ja tiedonhaku. Kirjaston avulla on myös helppo ladata Tesseract OCR -moottori, suorittaa sisällön purkaminen määritetylle kuvalle ja tulostaa purettu teksti konsoliin.

Suorita sisällön purkaminen Java OCR Libraryn avulla

import net.sourceforge.tess4j.Tesseract;
import net.sourceforge.tess4j.TesseractException;

public class ContentExtractionExample {
    public static void main(String[] args) {
        // Path to the Tesseract OCR installation directory
        String tessDataPath = "path/to/tesseract";

        // Initialize Tesseract instance
        Tesseract tesseract = new Tesseract();
        tesseract.setDatapath(tessDataPath);

        try {
            // Set the language for OCR (e.g., "eng" for English)
            tesseract.setLanguage("eng");

            // Path to the image file for content extraction
            String imagePath = "path/to/image.jpg";

            // Perform content extraction
            String extractedText = tesseract.doOCR(new File(imagePath));
            System.out.println(extractedText);
        } catch (TesseractException e) {
            e.printStackTrace();
        }
    }
}

PDF-muunnos pelkkää tekstiä Java-sovellusliittymän kautta

Avoimen lähdekoodin Tess4J-kirjasto tarjoaa täydelliset toiminnot PDF-dokumenttien lataamiseen ja muuntamiseen tavalliseksi tekstiksi Java-sovelluksissa. Tess4J voi muuntaa haettavat PDF-dokumentit tavalliseksi tekstiksi, jolloin kehittäjät voivat poimia sisältöä PDF-tiedostoista ja suorittaa lisäanalyysejä tai tietojenkäsittelyä. Seuraava esimerkki näyttää, kuinka ohjelmistokehittäjät voivat muuntaa olemassa olevan PDF-tiedoston tavalliseksi tekstiksi Java-sovelluksissa.

Kuinka muuntaa olemassa oleva PDF-tiedosto tavalliseksi tekstiksi?

import net.sourceforge.tess4j.Tesseract;
import net.sourceforge.tess4j.TesseractException;
import org.apache.pdfbox.pdmodel.PDDocument;
import org.apache.pdfbox.text.PDFTextStripper;

import java.io.File;
import java.io.IOException;

public class PDFToTextConverter {
    public static void main(String[] args) {
        // Path to the PDF file
        String filePath = "path/to/your/pdf/file.pdf";

        try {
            // Load the PDF document
            PDDocument document = PDDocument.load(new File(filePath));

            // Create an instance of Tesseract OCR engine
            Tesseract tesseract = new Tesseract();

            // Set the path to the tessdata directory (containing language data)
            tesseract.setDatapath("path/to/your/tessdata/directory");

            // Iterate over each page of the PDF document
            for (int pageIndex = 0; pageIndex < document.getNumberOfPages(); pageIndex++) {
                // Extract the text from the current page
                PDFTextStripper stripper = new PDFTextStripper();
                stripper.setStartPage(pageIndex + 1);
                stripper.setEndPage(pageIndex + 1);
                String pageText = stripper.getText(document);

                // Perform OCR on the extracted text
                String ocrText = tesseract.doOCR(pageText);

                // Output the OCR result
                System.out.println("Page " + (pageIndex + 1) + " OCR Result:");
                System.out.println(ocrText);
                System.out.println("--------------------------------------");
            }

            // Close the PDF document
            document.close();
        } catch (IOException | TesseractException e) {
            e.printStackTrace();
        }
    }
}