Δωρεάν βιβλιοθήκη Java για εξαγωγή κειμένου OCR και ανάλυση εγγράφων

Open Source Java OCR Library για ενσωμάτωση δυνατοτήτων OCR σε εφαρμογές Java και επιτρέπει την εξαγωγή κειμένου από εικόνες καθώς και από σαρωμένα έγγραφα.

Στη σημερινή ψηφιακή εποχή, η οπτική αναγνώριση χαρακτήρων (OCR) έχει γίνει ένα ουσιαστικό εργαλείο για την εξαγωγή κειμένου από εικόνες και σαρωμένα έγγραφα. Η τεχνολογία OCR επιτρέπει τη μετατροπή έντυπου ή χειρόγραφου κειμένου σε αναγνώσιμα από μηχανή δεδομένα, ανοίγοντας πολλές δυνατότητες για ανάλυση εγγράφων, εξαγωγή δεδομένων και αυτοματισμό. Μεταξύ των πολλών διαθέσιμων λύσεων OCR, η Tess4J ξεχωρίζει ως μια ισχυρή βιβλιοθήκη ανοιχτού κώδικα που συνδυάζει την ευελιξία της μηχανής Tesseract OCR με την απλότητα του προγραμματισμού Java.

Η βιβλιοθήκη Tess4J δίνει τη δυνατότητα στους προγραμματιστές Java να ενσωματώνουν απρόσκοπτα τις δυνατότητες OCR στις εφαρμογές τους. Είναι ένα περιτύλιγμα Java για το Tesseract, μια μηχανή OCR που αναπτύχθηκε αρχικά από τη Hewlett-Packard και αυτή τη στιγμή συντηρείται από την Google. Το Tess4J αξιοποιεί τον κινητήρα OCR της Tesseract, που φημίζεται για την ακρίβειά του. Χρησιμοποιεί προηγμένους αλγόριθμους και τεχνικές μηχανικής εκμάθησης για την επίτευξη αξιόπιστης εξαγωγής κειμένου από εικόνες, διασφαλίζοντας αποτελέσματα υψηλής ποιότητας. Επιτρέπει την ενσωμάτωση OCR σε εφαρμογές Java, καθιστώντας το συμβατό με διαφορετικές πλατφόρμες, συμπεριλαμβανομένων των Windows, Linux και macOS.

Το Tess4J παρέχει ένα απλό και καλά τεκμηριωμένο API, διευκολύνοντας τους προγραμματιστές να ενσωματώσουν τις δυνατότητες OCR στις εφαρμογές τους Java. Το Tess4J είναι μια ευέλικτη και ισχυρή βιβλιοθήκη ανοιχτού κώδικα που δίνει τη δυνατότητα στους προγραμματιστές να ενσωματώνουν ισχυρές δυνατότητες OCR στις εφαρμογές τους Java. Με την υποστήριξή του για πολλές γλώσσες, δυνατότητες προεπεξεργασίας εικόνας, δυνατότητες μετατροπής PDF και σύστημα βαθμολόγησης εμπιστοσύνης, το Tess4J παρέχει μια αποτελεσματική και αξιόπιστη λύση για εξαγωγή κειμένου και ανάλυση εγγράφων.

Previous Next

Ξεκινώντας με το Tess4J

Ο προτεινόμενος τρόπος εγκατάστασης του Tess4J είναι η χρήση του Maven. Χρησιμοποιήστε την ακόλουθη εντολή για ομαλή εγκατάσταση.

Εξάρτηση Maven για Tess4J


<dependencies>
	<dependency>
	<groupId>net.sourceforge.tess4j</groupId>
	<artifactId>tess4j;/artifactId>
	<version>X.X.X</version>
    </dependency>
</dependencies>

Εγκαταστήστε το Tess4J μέσω GitHub

 git clone https://github.com/nguyenq/tess4j.git  

Μπορείτε επίσης να το εγκαταστήσετε με μη αυτόματο τρόπο. κατεβάστε τα αρχεία τελευταίας έκδοσης απευθείας από το αποθετήριο GitHub.

Εξαγωγή περιεχομένου μέσω Java API

Η βιβλιοθήκη ανοιχτού κώδικα Tess4J επιτρέπει στους προγραμματιστές λογισμικού να εξάγουν κείμενο από διάφορους τύπους εικόνων εντός εφαρμογών Java. Η βιβλιοθήκη επιτρέπει την εξαγωγή κειμένου από εικόνες, επιτρέποντας στις εφαρμογές να αναλύουν και να επεξεργάζονται το περιεχόμενο κειμένου. Αυτή η δυνατότητα βρίσκει εφαρμογές σε τομείς όπως η ανάλυση συναισθημάτων, η σύνοψη κειμένου και η ανάκτηση πληροφοριών. Η βιβλιοθήκη διευκολύνει επίσης τη φόρτωση του μηχανισμού OCR Tesseract, την εξαγωγή περιεχομένου στην καθορισμένη εικόνα και την εκτύπωση του εξαγόμενου κειμένου στην κονσόλα.

Εκτελέστε εξαγωγή περιεχομένου χρησιμοποιώντας Java OCR Library

import net.sourceforge.tess4j.Tesseract;
import net.sourceforge.tess4j.TesseractException;

public class ContentExtractionExample {
    public static void main(String[] args) {
        // Path to the Tesseract OCR installation directory
        String tessDataPath = "path/to/tesseract";

        // Initialize Tesseract instance
        Tesseract tesseract = new Tesseract();
        tesseract.setDatapath(tessDataPath);

        try {
            // Set the language for OCR (e.g., "eng" for English)
            tesseract.setLanguage("eng");

            // Path to the image file for content extraction
            String imagePath = "path/to/image.jpg";

            // Perform content extraction
            String extractedText = tesseract.doOCR(new File(imagePath));
            System.out.println(extractedText);
        } catch (TesseractException e) {
            e.printStackTrace();
        }
    }
}

Μετατροπή PDF σε απλό κείμενο μέσω Java API

Η βιβλιοθήκη ανοιχτού κώδικα Tess4J παρέχει πλήρη λειτουργικότητα για τη φόρτωση και τη μετατροπή εγγράφων PDF σε απλό κείμενο εντός εφαρμογών Java. Το Tess4J μπορεί να μετατρέψει έγγραφα PDF με δυνατότητα αναζήτησης σε απλό κείμενο, επιτρέποντας στους προγραμματιστές να εξάγουν περιεχόμενο από αρχεία PDF και να εκτελούν περαιτέρω ανάλυση ή επεξεργασία δεδομένων. Το παρακάτω παράδειγμα δείχνει πώς οι προγραμματιστές λογισμικού μπορούν να μετατρέψουν ένα υπάρχον αρχείο PDF σε απλό κείμενο εντός εφαρμογών Java.

Πώς να μετατρέψετε ένα υπάρχον αρχείο PDF σε απλό κείμενο;

import net.sourceforge.tess4j.Tesseract;
import net.sourceforge.tess4j.TesseractException;
import org.apache.pdfbox.pdmodel.PDDocument;
import org.apache.pdfbox.text.PDFTextStripper;

import java.io.File;
import java.io.IOException;

public class PDFToTextConverter {
    public static void main(String[] args) {
        // Path to the PDF file
        String filePath = "path/to/your/pdf/file.pdf";

        try {
            // Load the PDF document
            PDDocument document = PDDocument.load(new File(filePath));

            // Create an instance of Tesseract OCR engine
            Tesseract tesseract = new Tesseract();

            // Set the path to the tessdata directory (containing language data)
            tesseract.setDatapath("path/to/your/tessdata/directory");

            // Iterate over each page of the PDF document
            for (int pageIndex = 0; pageIndex < document.getNumberOfPages(); pageIndex++) {
                // Extract the text from the current page
                PDFTextStripper stripper = new PDFTextStripper();
                stripper.setStartPage(pageIndex + 1);
                stripper.setEndPage(pageIndex + 1);
                String pageText = stripper.getText(document);

                // Perform OCR on the extracted text
                String ocrText = tesseract.doOCR(pageText);

                // Output the OCR result
                System.out.println("Page " + (pageIndex + 1) + " OCR Result:");
                System.out.println(ocrText);
                System.out.println("--------------------------------------");
            }

            // Close the PDF document
            document.close();
        } catch (IOException | TesseractException e) {
            e.printStackTrace();
        }
    }
}

 Ελληνικά