Perpustakaan Java Percuma untuk Pengekstrakan Teks OCR dan Analisis Dokumen
Perpustakaan OCR Java Sumber Terbuka untuk Menggabungkan keupayaan OCR ke dalam aplikasi Java dan membenarkan Mengekstrak Teks daripada Imej serta Dokumen yang Diimbas.
Dalam era digital hari ini, Pengecaman Aksara Optik (OCR) telah menjadi alat penting untuk mengekstrak teks daripada imej dan dokumen yang diimbas. Teknologi OCR membolehkan penukaran teks bercetak atau tulisan tangan kepada data yang boleh dibaca mesin, membuka banyak kemungkinan untuk analisis dokumen, pengekstrakan data dan automasi. Di antara banyak penyelesaian OCR yang tersedia, Tess4J menonjol sebagai perpustakaan sumber terbuka yang berkuasa yang menggabungkan kepelbagaian enjin Tesseract OCR dengan kesederhanaan pengaturcaraan Java.
Pustaka Tess4J memperkasakan pembangun Java untuk menggabungkan keupayaan OCR dengan lancar ke dalam aplikasi mereka. Ia adalah pembalut Java untuk Tesseract, enjin OCR yang pada asalnya dibangunkan oleh Hewlett-Packard dan kini diselenggara oleh Google. Tess4J memanfaatkan enjin OCR Tesseract, yang terkenal dengan ketepatannya. Ia menggunakan algoritma lanjutan dan teknik pembelajaran mesin untuk mencapai pengekstrakan teks yang boleh dipercayai daripada imej, memastikan hasil yang berkualiti tinggi. Ia membolehkan penyepaduan OCR dalam aplikasi Java, menjadikannya serasi dengan platform yang berbeza, termasuk Windows, Linux dan macOS.
Tess4J menyediakan API yang ringkas dan didokumentasikan dengan baik, memudahkan pembangun untuk menyepadukan keupayaan OCR ke dalam aplikasi Java mereka. Tess4J ialah perpustakaan sumber terbuka yang serba boleh dan teguh yang memperkasakan pembangun untuk menyepadukan keupayaan OCR yang berkuasa ke dalam aplikasi Java mereka. Dengan sokongannya untuk berbilang bahasa, ciri prapemprosesan imej, keupayaan penukaran PDF dan sistem pemarkahan keyakinan, Tess4J menyediakan penyelesaian yang cekap dan boleh dipercayai untuk pengekstrakan teks dan analisis dokumen.
Bermula dengan Tess4J
Cara yang disyorkan untuk memasang Tess4J adalah menggunakan Maven. Sila gunakan arahan berikut untuk pemasangan yang lancar.
Ketergantungan Maven untuk Tess4J
<dependencies>
<dependency>
<groupId>net.sourceforge.tess4j</groupId>
<artifactId>tess4j;/artifactId>
<version>X.X.X</version>
</dependency>
</dependencies>
Pasang Tess4J melalui GitHub
git clone https://github.com/nguyenq/tess4j.git
You can also install it manually; download the latest release files directly from GitHub repository.
Pengeluaran Kandungan melalui Java API
Pustaka Tess4J sumber terbuka membenarkan pembangun perisian mengekstrak teks daripada pelbagai jenis imej dalam aplikasi Java. Perpustakaan membolehkan pengekstrakan teks daripada imej, membolehkan aplikasi menganalisis dan memproses kandungan teks. Keupayaan ini menemui aplikasi dalam bidang seperti analisis sentimen, ringkasan teks dan mendapatkan maklumat. Perpustakaan juga memudahkan untuk memuatkan enjin Tesseract OCR, melakukan pengekstrakan kandungan pada imej yang ditentukan dan mencetak teks yang diekstrak ke konsol.
Lakukan Pengekstrakan Kandungan menggunakan Pustaka OCR Java
import net.sourceforge.tess4j.Tesseract;
import net.sourceforge.tess4j.TesseractException;
public class ContentExtractionExample {
public static void main(String[] args) {
// Path to the Tesseract OCR installation directory
String tessDataPath = "path/to/tesseract";
// Initialize Tesseract instance
Tesseract tesseract = new Tesseract();
tesseract.setDatapath(tessDataPath);
try {
// Set the language for OCR (e.g., "eng" for English)
tesseract.setLanguage("eng");
// Path to the image file for content extraction
String imagePath = "path/to/image.jpg";
// Perform content extraction
String extractedText = tesseract.doOCR(new File(imagePath));
System.out.println(extractedText);
} catch (TesseractException e) {
e.printStackTrace();
}
}
}
Penukaran PDF kepada Teks Biasa melalui Java API
Pustaka Tess4J sumber terbuka telah menyediakan kefungsian lengkap untuk memuatkan dan menukar dokumen PDF kepada teks biasa dalam aplikasi Java. Tess4J boleh menukar dokumen PDF yang boleh dicari kepada teks biasa, membolehkan pembangun mengekstrak kandungan daripada fail PDF dan melakukan analisis lanjut atau pemprosesan data. Contoh berikut menunjukkan, cara pembangun perisian boleh menukar fail PDF sedia ada kepada teks biasa dalam aplikasi Java.
Bagaimana untuk Menukar Fail PDF Sedia Ada kepada Teks Biasa?
import net.sourceforge.tess4j.Tesseract;
import net.sourceforge.tess4j.TesseractException;
import org.apache.pdfbox.pdmodel.PDDocument;
import org.apache.pdfbox.text.PDFTextStripper;
import java.io.File;
import java.io.IOException;
public class PDFToTextConverter {
public static void main(String[] args) {
// Path to the PDF file
String filePath = "path/to/your/pdf/file.pdf";
try {
// Load the PDF document
PDDocument document = PDDocument.load(new File(filePath));
// Create an instance of Tesseract OCR engine
Tesseract tesseract = new Tesseract();
// Set the path to the tessdata directory (containing language data)
tesseract.setDatapath("path/to/your/tessdata/directory");
// Iterate over each page of the PDF document
for (int pageIndex = 0; pageIndex < document.getNumberOfPages(); pageIndex++) {
// Extract the text from the current page
PDFTextStripper stripper = new PDFTextStripper();
stripper.setStartPage(pageIndex + 1);
stripper.setEndPage(pageIndex + 1);
String pageText = stripper.getText(document);
// Perform OCR on the extracted text
String ocrText = tesseract.doOCR(pageText);
// Output the OCR result
System.out.println("Page " + (pageIndex + 1) + " OCR Result:");
System.out.println(ocrText);
System.out.println("--------------------------------------");
}
// Close the PDF document
document.close();
} catch (IOException | TesseractException e) {
e.printStackTrace();
}
}
}