ספריית Java בחינם לחילוץ טקסט OCR וניתוח מסמכים
ספריית Java OCR בקוד פתוח לשילוב יכולות OCR באפליקציות Java ומאפשרת חילוץ טקסט מתמונות כמו גם ממסמכים סרוקים.
בעידן הדיגיטלי של היום, זיהוי תווים אופטי (OCR) הפך לכלי חיוני לחילוץ טקסט מתמונות ומסמכים סרוקים. טכנולוגיית OCR מאפשרת המרה של טקסט מודפס או בכתב יד לנתונים הניתנים לקריאה במכונה, ופותחת אפשרויות רבות לניתוח מסמכים, חילוץ נתונים ואוטומציה. בין פתרונות ה-OCR הרבים הזמינים, Tess4J בולט כספריית קוד פתוח רבת עוצמה המשלבת את הרבגוניות של מנוע ה-OCR של Tesseract עם הפשטות של תכנות Java.
ספריית Tess4J מאפשרת למפתחי Java לשלב יכולות OCR בצורה חלקה ביישומים שלהם. זהו מעטפת Java עבור Tesseract, מנוע OCR שפותח במקור על ידי Hewlett-Packard ומתוחזק כיום על ידי גוגל. Tess4J ממנפת את מנוע ה-OCR של Tesseract, הידוע בזכות הדיוק שלו. הוא משתמש באלגוריתמים מתקדמים וטכניקות למידת מכונה כדי להשיג חילוץ טקסט אמין מתמונות, מה שמבטיח תוצאות באיכות גבוהה. הוא מאפשר שילוב OCR ביישומי Java, מה שהופך אותו לתואם לפלטפורמות שונות, כולל Windows, Linux ו-macOS.
Tess4J מספק API פשוט ומתועד היטב, המקל על מפתחים לשלב יכולות OCR ביישומי Java שלהם. Tess4J היא ספריית קוד פתוח רב-תכליתית וחזקה המאפשרת למפתחים לשלב יכולות OCR חזקות ביישומי Java שלהם. עם תמיכה במספר שפות, תכונות עיבוד מקדים של תמונות, יכולות המרת PDF ומערכת ניקוד ביטחון, Tess4J מספקת פתרון יעיל ואמין לחילוץ טקסט וניתוח מסמכים.
תחילת העבודה עם Tess4J
הדרך המומלצת להתקין את Tess4J היא באמצעות Maven. אנא השתמש בפקודה הבאה להתקנה חלקה.
Maven Dependency עבור Tess4J
<dependencies>
<dependency>
<groupId>net.sourceforge.tess4j</groupId>
<artifactId>tess4j;/artifactId>
<version>X.X.X</version>
</dependency>
</dependencies>
התקן את Tess4J באמצעות GitHub
git clone https://github.com/nguyenq/tess4j.git
תוכל גם להתקין אותו באופן ידני; הורד את קבצי הגרסה העדכניים ביותר ישירות ממאגר GitHub.
חילוץ תוכן באמצעות Java API
ספריית הקוד הפתוח Tess4J מאפשרת למפתחי תוכנה לחלץ טקסט מסוגים שונים של תמונות בתוך יישומי Java. הספרייה מאפשרת חילוץ של טקסט מתמונות, מה שמאפשר לאפליקציות לנתח ולעבד את התוכן הטקסטואלי. יכולת זו מוצאת יישומים בתחומים כמו ניתוח סנטימנטים, סיכום טקסט ואחזור מידע. הספרייה גם מקלה על טעינת מנוע ה-Tesseract OCR, ביצוע חילוץ תוכן בתמונה שצוינה והדפסת הטקסט שחולץ לקונסולה.
בצע חילוץ תוכן באמצעות ספריית Java OCR
import net.sourceforge.tess4j.Tesseract;
import net.sourceforge.tess4j.TesseractException;
public class ContentExtractionExample {
public static void main(String[] args) {
// Path to the Tesseract OCR installation directory
String tessDataPath = "path/to/tesseract";
// Initialize Tesseract instance
Tesseract tesseract = new Tesseract();
tesseract.setDatapath(tessDataPath);
try {
// Set the language for OCR (e.g., "eng" for English)
tesseract.setLanguage("eng");
// Path to the image file for content extraction
String imagePath = "path/to/image.jpg";
// Perform content extraction
String extractedText = tesseract.doOCR(new File(imagePath));
System.out.println(extractedText);
} catch (TesseractException e) {
e.printStackTrace();
}
}
}
המרת PDF לטקסט רגיל באמצעות Java API
ספריית הקוד הפתוח Tess4J סיפקה פונקציונליות מלאה לטעינה והמרת מסמכי PDF לטקסט רגיל בתוך יישומי Java. Tess4J יכול להמיר מסמכי PDF הניתנים לחיפוש לטקסט רגיל, מה שמאפשר למפתחים לחלץ תוכן מקובצי PDF ולבצע ניתוח נוסף או עיבוד נתונים. הדוגמה הבאה מראה כיצד מפתחי תוכנה יכולים להמיר קובץ PDF קיים לטקסט רגיל בתוך יישומי Java.
כיצד להמיר קובץ PDF קיים לטקסט רגיל?
import net.sourceforge.tess4j.Tesseract;
import net.sourceforge.tess4j.TesseractException;
import org.apache.pdfbox.pdmodel.PDDocument;
import org.apache.pdfbox.text.PDFTextStripper;
import java.io.File;
import java.io.IOException;
public class PDFToTextConverter {
public static void main(String[] args) {
// Path to the PDF file
String filePath = "path/to/your/pdf/file.pdf";
try {
// Load the PDF document
PDDocument document = PDDocument.load(new File(filePath));
// Create an instance of Tesseract OCR engine
Tesseract tesseract = new Tesseract();
// Set the path to the tessdata directory (containing language data)
tesseract.setDatapath("path/to/your/tessdata/directory");
// Iterate over each page of the PDF document
for (int pageIndex = 0; pageIndex < document.getNumberOfPages(); pageIndex++) {
// Extract the text from the current page
PDFTextStripper stripper = new PDFTextStripper();
stripper.setStartPage(pageIndex + 1);
stripper.setEndPage(pageIndex + 1);
String pageText = stripper.getText(document);
// Perform OCR on the extracted text
String ocrText = tesseract.doOCR(pageText);
// Output the OCR result
System.out.println("Page " + (pageIndex + 1) + " OCR Result:");
System.out.println(ocrText);
System.out.println("--------------------------------------");
}
// Close the PDF document
document.close();
} catch (IOException | TesseractException e) {
e.printStackTrace();
}
}
}