ไลบรารี Java ฟรีสำหรับการแยกข้อความ OCR และการวิเคราะห์เอกสาร
ไลบรารี Open Source Java OCR สำหรับการรวมความสามารถ OCR เข้ากับแอป Java และอนุญาตให้แยกข้อความจากรูปภาพรวมถึงเอกสารที่สแกน
ในยุคดิจิทัลปัจจุบัน Optical Character Recognition (OCR) ได้กลายเป็นเครื่องมือสำคัญในการดึงข้อความจากรูปภาพและเอกสารที่สแกน เทคโนโลยี OCR ช่วยให้สามารถแปลงข้อความที่พิมพ์หรือเขียนด้วยลายมือเป็นข้อมูลที่เครื่องอ่านได้ เปิดความเป็นไปได้มากมายสำหรับการวิเคราะห์เอกสาร การดึงข้อมูล และระบบอัตโนมัติ ในบรรดาโซลูชัน OCR ที่มีอยู่มากมาย Tess4J มีความโดดเด่นในฐานะไลบรารีโอเพ่นซอร์สที่ทรงพลังซึ่งผสมผสานความอเนกประสงค์ของกลไก Tesseract OCR เข้ากับความเรียบง่ายของการเขียนโปรแกรม Java
ไลบรารี Tess4J ช่วยให้นักพัฒนา Java สามารถรวมความสามารถ OCR เข้ากับแอปพลิเคชันของตนได้อย่างราบรื่น เป็น wrapper Java สำหรับ Tesseract ซึ่งเป็นเอ็นจิ้น OCR ที่พัฒนาโดย Hewlett-Packard และปัจจุบันดูแลโดย Google Tess4J ใช้ประโยชน์จากกลไก OCR ของ Tesseract ซึ่งมีชื่อเสียงในด้านความแม่นยำ ใช้อัลกอริธึมขั้นสูงและเทคนิคการเรียนรู้ของเครื่องเพื่อให้ดึงข้อความจากรูปภาพที่เชื่อถือได้ เพื่อให้มั่นใจถึงผลลัพธ์คุณภาพสูง ช่วยให้สามารถรวม OCR ในแอปพลิเคชัน Java ทำให้เข้ากันได้กับแพลตฟอร์มต่างๆ รวมถึง Windows, Linux และ macOS
Tess4J มอบ API ที่ตรงไปตรงมาและมีเอกสารประกอบอย่างดี ช่วยให้นักพัฒนาสามารถรวมความสามารถ OCR เข้ากับแอปพลิเคชัน Java ของตนได้อย่างง่ายดาย Tess4J เป็นไลบรารีโอเพ่นซอร์สที่หลากหลายและมีประสิทธิภาพ ช่วยให้นักพัฒนาสามารถรวมความสามารถ OCR อันทรงพลังเข้ากับแอปพลิเคชัน Java ของตนได้ ด้วยการรองรับหลายภาษา คุณสมบัติการประมวลผลภาพล่วงหน้า ความสามารถในการแปลง PDF และระบบการให้คะแนนความมั่นใจ Tess4J มอบโซลูชันที่มีประสิทธิภาพและเชื่อถือได้สำหรับการแยกข้อความและการวิเคราะห์เอกสาร
เริ่มต้นใช้งาน Tess4J
วิธีที่แนะนำในการติดตั้ง Tess4J คือการใช้ Maven โปรดใช้คำสั่งต่อไปนี้เพื่อการติดตั้งที่ราบรื่น
การพึ่งพา Maven สำหรับ Tess4J
<dependencies>
<dependency>
<groupId>net.sourceforge.tess4j</groupId>
<artifactId>tess4j;/artifactId>
<version>X.X.X</version>
</dependency>
</dependencies>
Install Tess4J via GitHub
git clone https://github.com/nguyenq/tess4j.git
คุณยังสามารถติดตั้งได้ด้วยตนเอง ดาวน์โหลดไฟล์รุ่นล่าสุดได้โดยตรงจากที่เก็บ GitHub
การแยกเนื้อหาผ่าน Java API
ไลบรารีโอเพ่นซอร์ส Tess4J ช่วยให้นักพัฒนาซอฟต์แวร์สามารถแยกข้อความจากรูปภาพประเภทต่างๆ ภายในแอปพลิเคชัน Java ไลบรารีช่วยให้สามารถดึงข้อความจากรูปภาพ ทำให้แอปพลิเคชันสามารถวิเคราะห์และประมวลผลเนื้อหาที่เป็นข้อความได้ ความสามารถนี้จะค้นหาแอปพลิเคชันในด้านต่างๆ เช่น การวิเคราะห์ความรู้สึก การสรุปข้อความ และการดึงข้อมูล ไลบรารียังช่วยให้โหลดเอ็นจิ้น Tesseract OCR ทำการแตกเนื้อหาบนรูปภาพที่ระบุ และพิมพ์ข้อความที่แยกออกมาไปยังคอนโซลได้อย่างง่ายดาย
ดำเนินการแยกเนื้อหาโดยใช้ไลบรารี Java OCR
import net.sourceforge.tess4j.Tesseract;
import net.sourceforge.tess4j.TesseractException;
public class ContentExtractionExample {
public static void main(String[] args) {
// Path to the Tesseract OCR installation directory
String tessDataPath = "path/to/tesseract";
// Initialize Tesseract instance
Tesseract tesseract = new Tesseract();
tesseract.setDatapath(tessDataPath);
try {
// Set the language for OCR (e.g., "eng" for English)
tesseract.setLanguage("eng");
// Path to the image file for content extraction
String imagePath = "path/to/image.jpg";
// Perform content extraction
String extractedText = tesseract.doOCR(new File(imagePath));
System.out.println(extractedText);
} catch (TesseractException e) {
e.printStackTrace();
}
}
}
การแปลง PDF เป็นข้อความธรรมดาผ่าน Java API
ไลบรารีโอเพ่นซอร์ส Tess4J มีฟังก์ชันการทำงานที่สมบูรณ์สำหรับการโหลดและแปลงเอกสาร PDF ให้เป็นข้อความธรรมดาภายในแอปพลิเคชัน Java Tess4J สามารถแปลงเอกสาร PDF ที่ค้นหาได้เป็นข้อความธรรมดา ช่วยให้นักพัฒนาสามารถดึงเนื้อหาจากไฟล์ PDF และทำการวิเคราะห์เพิ่มเติมหรือประมวลผลข้อมูลได้ ตัวอย่างต่อไปนี้แสดงให้เห็นว่านักพัฒนาซอฟต์แวร์สามารถแปลงไฟล์ PDF ที่มีอยู่ให้เป็นข้อความธรรมดาภายในแอปพลิเคชัน Java ได้อย่างไร
จะแปลงไฟล์ PDF ที่มีอยู่เป็นข้อความธรรมดาได้อย่างไร
import net.sourceforge.tess4j.Tesseract;
import net.sourceforge.tess4j.TesseractException;
import org.apache.pdfbox.pdmodel.PDDocument;
import org.apache.pdfbox.text.PDFTextStripper;
import java.io.File;
import java.io.IOException;
public class PDFToTextConverter {
public static void main(String[] args) {
// Path to the PDF file
String filePath = "path/to/your/pdf/file.pdf";
try {
// Load the PDF document
PDDocument document = PDDocument.load(new File(filePath));
// Create an instance of Tesseract OCR engine
Tesseract tesseract = new Tesseract();
// Set the path to the tessdata directory (containing language data)
tesseract.setDatapath("path/to/your/tessdata/directory");
// Iterate over each page of the PDF document
for (int pageIndex = 0; pageIndex < document.getNumberOfPages(); pageIndex++) {
// Extract the text from the current page
PDFTextStripper stripper = new PDFTextStripper();
stripper.setStartPage(pageIndex + 1);
stripper.setEndPage(pageIndex + 1);
String pageText = stripper.getText(document);
// Perform OCR on the extracted text
String ocrText = tesseract.doOCR(pageText);
// Output the OCR result
System.out.println("Page " + (pageIndex + 1) + " OCR Result:");
System.out.println(ocrText);
System.out.println("--------------------------------------");
}
// Close the PDF document
document.close();
} catch (IOException | TesseractException e) {
e.printStackTrace();
}
}
}