1. מוצרים
  2.   OCR
  3.   Java
  4.   Tess4J
 
  

ספריית Java בחינם לחילוץ טקסט OCR וניתוח מסמכים

ספריית Java OCR בקוד פתוח לשילוב יכולות OCR באפליקציות Java ומאפשרת חילוץ טקסט מתמונות כמו גם ממסמכים סרוקים.

בעידן הדיגיטלי של היום, זיהוי תווים אופטי (OCR) הפך לכלי חיוני לחילוץ טקסט מתמונות ומסמכים סרוקים. טכנולוגיית OCR מאפשרת המרה של טקסט מודפס או בכתב יד לנתונים הניתנים לקריאה במכונה, ופותחת אפשרויות רבות לניתוח מסמכים, חילוץ נתונים ואוטומציה. בין פתרונות ה-OCR הרבים הזמינים, Tess4J בולט כספריית קוד פתוח רבת עוצמה המשלבת את הרבגוניות של מנוע ה-OCR של Tesseract עם הפשטות של תכנות Java.

ספריית Tess4J מאפשרת למפתחי Java לשלב יכולות OCR בצורה חלקה ביישומים שלהם. זהו מעטפת Java עבור Tesseract, מנוע OCR שפותח במקור על ידי Hewlett-Packard ומתוחזק כיום על ידי גוגל. Tess4J ממנפת את מנוע ה-OCR של Tesseract, הידוע בזכות הדיוק שלו. הוא משתמש באלגוריתמים מתקדמים וטכניקות למידת מכונה כדי להשיג חילוץ טקסט אמין מתמונות, מה שמבטיח תוצאות באיכות גבוהה. הוא מאפשר שילוב OCR ביישומי Java, מה שהופך אותו לתואם לפלטפורמות שונות, כולל Windows, Linux ו-macOS.

Tess4J מספק API פשוט ומתועד היטב, המקל על מפתחים לשלב יכולות OCR ביישומי Java שלהם. Tess4J היא ספריית קוד פתוח רב-תכליתית וחזקה המאפשרת למפתחים לשלב יכולות OCR חזקות ביישומי Java שלהם. עם תמיכה במספר שפות, תכונות עיבוד מקדים של תמונות, יכולות המרת PDF ומערכת ניקוד ביטחון, Tess4J מספקת פתרון יעיל ואמין לחילוץ טקסט וניתוח מסמכים.

Previous Next

תחילת העבודה עם Tess4J

הדרך המומלצת להתקין את Tess4J היא באמצעות Maven. אנא השתמש בפקודה הבאה להתקנה חלקה.

Maven Dependency עבור Tess4J


<dependencies>
	<dependency>
	<groupId>net.sourceforge.tess4j</groupId>
	<artifactId>tess4j;/artifactId>
	<version>X.X.X</version>
    </dependency>
</dependencies>

התקן את Tess4J באמצעות GitHub

 git clone https://github.com/nguyenq/tess4j.git  

תוכל גם להתקין אותו באופן ידני; הורד את קבצי הגרסה העדכניים ביותר ישירות ממאגר GitHub.

חילוץ תוכן באמצעות Java API

ספריית הקוד הפתוח Tess4J מאפשרת למפתחי תוכנה לחלץ טקסט מסוגים שונים של תמונות בתוך יישומי Java. הספרייה מאפשרת חילוץ של טקסט מתמונות, מה שמאפשר לאפליקציות לנתח ולעבד את התוכן הטקסטואלי. יכולת זו מוצאת יישומים בתחומים כמו ניתוח סנטימנטים, סיכום טקסט ואחזור מידע. הספרייה גם מקלה על טעינת מנוע ה-Tesseract OCR, ביצוע חילוץ תוכן בתמונה שצוינה והדפסת הטקסט שחולץ לקונסולה.

בצע חילוץ תוכן באמצעות ספריית Java OCR

import net.sourceforge.tess4j.Tesseract;
import net.sourceforge.tess4j.TesseractException;

public class ContentExtractionExample {
    public static void main(String[] args) {
        // Path to the Tesseract OCR installation directory
        String tessDataPath = "path/to/tesseract";

        // Initialize Tesseract instance
        Tesseract tesseract = new Tesseract();
        tesseract.setDatapath(tessDataPath);

        try {
            // Set the language for OCR (e.g., "eng" for English)
            tesseract.setLanguage("eng");

            // Path to the image file for content extraction
            String imagePath = "path/to/image.jpg";

            // Perform content extraction
            String extractedText = tesseract.doOCR(new File(imagePath));
            System.out.println(extractedText);
        } catch (TesseractException e) {
            e.printStackTrace();
        }
    }
}

המרת PDF לטקסט רגיל באמצעות Java API

ספריית הקוד הפתוח Tess4J סיפקה פונקציונליות מלאה לטעינה והמרת מסמכי PDF לטקסט רגיל בתוך יישומי Java. Tess4J יכול להמיר מסמכי PDF הניתנים לחיפוש לטקסט רגיל, מה שמאפשר למפתחים לחלץ תוכן מקובצי PDF ולבצע ניתוח נוסף או עיבוד נתונים. הדוגמה הבאה מראה כיצד מפתחי תוכנה יכולים להמיר קובץ PDF קיים לטקסט רגיל בתוך יישומי Java.

כיצד להמיר קובץ PDF קיים לטקסט רגיל?

import net.sourceforge.tess4j.Tesseract;
import net.sourceforge.tess4j.TesseractException;
import org.apache.pdfbox.pdmodel.PDDocument;
import org.apache.pdfbox.text.PDFTextStripper;

import java.io.File;
import java.io.IOException;

public class PDFToTextConverter {
    public static void main(String[] args) {
        // Path to the PDF file
        String filePath = "path/to/your/pdf/file.pdf";

        try {
            // Load the PDF document
            PDDocument document = PDDocument.load(new File(filePath));

            // Create an instance of Tesseract OCR engine
            Tesseract tesseract = new Tesseract();

            // Set the path to the tessdata directory (containing language data)
            tesseract.setDatapath("path/to/your/tessdata/directory");

            // Iterate over each page of the PDF document
            for (int pageIndex = 0; pageIndex < document.getNumberOfPages(); pageIndex++) {
                // Extract the text from the current page
                PDFTextStripper stripper = new PDFTextStripper();
                stripper.setStartPage(pageIndex + 1);
                stripper.setEndPage(pageIndex + 1);
                String pageText = stripper.getText(document);

                // Perform OCR on the extracted text
                String ocrText = tesseract.doOCR(pageText);

                // Output the OCR result
                System.out.println("Page " + (pageIndex + 1) + " OCR Result:");
                System.out.println(ocrText);
                System.out.println("--------------------------------------");
            }

            // Close the PDF document
            document.close();
        } catch (IOException | TesseractException e) {
            e.printStackTrace();
        }
    }
}

 עִברִית