Perpustakaan Java Gratis untuk Ekstraksi Teks OCR dan Analisis Dokumen
Perpustakaan OCR Java Sumber Terbuka untuk Memasukkan kemampuan OCR ke dalam aplikasi Java dan memungkinkan Mengekstraksi Teks dari Gambar serta Dokumen yang Dipindai.
Di era digital saat ini, Pengenalan Karakter Optik (OCR) telah menjadi alat penting untuk mengekstraksi teks dari gambar dan dokumen yang dipindai. Teknologi OCR memungkinkan konversi teks cetak atau tulisan tangan menjadi data yang dapat dibaca mesin, membuka banyak kemungkinan untuk analisis dokumen, ekstraksi data, dan otomatisasi. Di antara banyak solusi OCR yang tersedia, Tess4J menonjol sebagai perpustakaan sumber terbuka canggih yang menggabungkan keserbagunaan mesin Tesseract OCR dengan kesederhanaan pemrograman Java.
Pustaka Tess4J memberdayakan pengembang Java untuk menggabungkan kemampuan OCR dengan lancar ke dalam aplikasi mereka. Ini adalah pembungkus Java untuk Tesseract, mesin OCR yang awalnya dikembangkan oleh Hewlett-Packard dan saat ini dikelola oleh Google. Tess4J memanfaatkan mesin OCR Tesseract, yang terkenal karena akurasinya. Ini menggunakan algoritma canggih dan teknik pembelajaran mesin untuk mencapai ekstraksi teks yang andal dari gambar, memastikan hasil berkualitas tinggi. Ini memungkinkan integrasi OCR dalam aplikasi Java, sehingga kompatibel dengan berbagai platform, termasuk Windows, Linux, dan macOS.
Tess4J menyediakan API yang lugas dan terdokumentasi dengan baik, sehingga memudahkan pengembang untuk mengintegrasikan kemampuan OCR ke dalam aplikasi Java mereka. Tess4J adalah perpustakaan sumber terbuka serbaguna dan tangguh yang memberdayakan pengembang untuk mengintegrasikan kemampuan OCR yang kuat ke dalam aplikasi Java mereka. Dengan dukungan berbagai bahasa, fitur prapemrosesan gambar, kemampuan konversi PDF, dan sistem penilaian kepercayaan, Tess4J memberikan solusi yang efisien dan andal untuk ekstraksi teks dan analisis dokumen.
Memulai Tess4J
Cara yang disarankan untuk menginstal Tess4J adalah menggunakan Maven. Silakan gunakan perintah berikut untuk kelancaran instalasi.
Ketergantungan Maven untuk Tess4J
<dependencies>
<dependency>
<groupId>net.sourceforge.tess4j</groupId>
<artifactId>tess4j;/artifactId>
<version>X.X.X</version>
</dependency>
</dependencies>
Instal Tess4J melalui GitHub
git clone https://github.com/nguyenq/tess4j.git
Anda juga dapat menginstalnya secara manual; unduh file rilis terbaru langsung dari repositori GitHub.
Ekstraksi Konten melalui Java API
Perpustakaan Tess4J sumber terbuka memungkinkan pengembang perangkat lunak mengekstrak teks dari berbagai jenis gambar di dalam aplikasi Java. Perpustakaan memungkinkan ekstraksi teks dari gambar, memungkinkan aplikasi menganalisis dan memproses konten tekstual. Kemampuan ini dapat diterapkan di berbagai bidang seperti analisis sentimen, peringkasan teks, dan pengambilan informasi. Pustaka juga memudahkan memuat mesin Tesseract OCR, melakukan ekstraksi konten pada gambar tertentu, dan mencetak teks yang diekstraksi ke konsol.
Lakukan Ekstraksi Konten menggunakan Java OCR Library
import net.sourceforge.tess4j.Tesseract;
import net.sourceforge.tess4j.TesseractException;
public class ContentExtractionExample {
public static void main(String[] args) {
// Path to the Tesseract OCR installation directory
String tessDataPath = "path/to/tesseract";
// Initialize Tesseract instance
Tesseract tesseract = new Tesseract();
tesseract.setDatapath(tessDataPath);
try {
// Set the language for OCR (e.g., "eng" for English)
tesseract.setLanguage("eng");
// Path to the image file for content extraction
String imagePath = "path/to/image.jpg";
// Perform content extraction
String extractedText = tesseract.doOCR(new File(imagePath));
System.out.println(extractedText);
} catch (TesseractException e) {
e.printStackTrace();
}
}
}
Konversi PDF ke Teks Biasa melalui Java API
Perpustakaan Tess4J sumber terbuka telah menyediakan fungsionalitas lengkap untuk memuat dan mengonversi dokumen PDF menjadi teks biasa di dalam aplikasi Java. Tess4J dapat mengubah dokumen PDF yang dapat dicari menjadi teks biasa, memungkinkan pengembang mengekstrak konten dari file PDF dan melakukan analisis atau pemrosesan data lebih lanjut. Contoh berikut menunjukkan, bagaimana pengembang perangkat lunak dapat mengonversi file PDF yang ada menjadi teks biasa di dalam aplikasi Java.
Bagaimana Mengonversi File PDF yang Ada menjadi Teks Biasa?
import net.sourceforge.tess4j.Tesseract;
import net.sourceforge.tess4j.TesseractException;
import org.apache.pdfbox.pdmodel.PDDocument;
import org.apache.pdfbox.text.PDFTextStripper;
import java.io.File;
import java.io.IOException;
public class PDFToTextConverter {
public static void main(String[] args) {
// Path to the PDF file
String filePath = "path/to/your/pdf/file.pdf";
try {
// Load the PDF document
PDDocument document = PDDocument.load(new File(filePath));
// Create an instance of Tesseract OCR engine
Tesseract tesseract = new Tesseract();
// Set the path to the tessdata directory (containing language data)
tesseract.setDatapath("path/to/your/tessdata/directory");
// Iterate over each page of the PDF document
for (int pageIndex = 0; pageIndex < document.getNumberOfPages(); pageIndex++) {
// Extract the text from the current page
PDFTextStripper stripper = new PDFTextStripper();
stripper.setStartPage(pageIndex + 1);
stripper.setEndPage(pageIndex + 1);
String pageText = stripper.getText(document);
// Perform OCR on the extracted text
String ocrText = tesseract.doOCR(pageText);
// Output the OCR result
System.out.println("Page " + (pageIndex + 1) + " OCR Result:");
System.out.println(ocrText);
System.out.println("--------------------------------------");
}
// Close the PDF document
document.close();
} catch (IOException | TesseractException e) {
e.printStackTrace();
}
}
}