Bezmaksas Java bibliotēka OCR teksta iegūšanai un dokumentu analīzei
Atvērtā pirmkoda Java OCR bibliotēka OCR iespēju iekļaušanai Java lietotnēs un ļauj izvilkt tekstu no attēliem, kā arī skenētajiem dokumentiem.
Mūsdienu digitālajā laikmetā optiskā rakstzīmju atpazīšana (OCR) ir kļuvusi par būtisku rīku teksta izvilkšanai no attēliem un skenētiem dokumentiem. OCR tehnoloģija ļauj pārveidot drukātu vai ar roku rakstītu tekstu mašīnlasāmos datos, paverot daudzas iespējas dokumentu analīzei, datu ieguvei un automatizācijai. Starp daudzajiem pieejamajiem OCR risinājumiem Tess4J izceļas kā jaudīga atvērtā pirmkoda bibliotēka, kas apvieno Tesseract OCR dzinēja daudzpusību ar Java programmēšanas vienkāršību.
Tess4J bibliotēka sniedz Java izstrādātājiem iespēju savās lietojumprogrammās nemanāmi iekļaut OCR iespējas. Tas ir Java iesaiņojums Tesseract, OCR dzinējam, kuru sākotnēji izstrādāja Hewlett-Packard un pašlaik uztur Google. Tess4J izmanto Tesseract OCR dzinēju, kas ir slavens ar savu precizitāti. Tajā tiek izmantoti uzlaboti algoritmi un mašīnmācīšanās metodes, lai panāktu uzticamu teksta izvilkšanu no attēliem, nodrošinot augstas kvalitātes rezultātus. Tas nodrošina OCR integrāciju Java lietojumprogrammās, padarot to saderīgu ar dažādām platformām, tostarp Windows, Linux un macOS.
Tess4J nodrošina vienkāršu un labi dokumentētu API, kas ļauj izstrādātājiem viegli integrēt OCR iespējas savās Java lietojumprogrammās. Tess4J ir daudzpusīga un stabila atvērtā pirmkoda bibliotēka, kas sniedz izstrādātājiem iespēju savās Java lietojumprogrammās integrēt jaudīgas OCR iespējas. Ar savu atbalstu vairākām valodām, attēlu priekšapstrādes līdzekļiem, PDF konvertēšanas iespējām un uzticamības vērtēšanas sistēmu Tess4J nodrošina efektīvu un uzticamu risinājumu teksta izvilkšanai un dokumentu analīzei.
Darba sākšana ar Tess4J
Ieteicamais veids, kā instalēt Tess4J, ir izmantot Maven. Lūdzu, izmantojiet šo komandu vienmērīgai instalēšanai.
Maven atkarība no Tess4J
<dependencies>
<dependency>
<groupId>net.sourceforge.tess4j</groupId>
<artifactId>tess4j;/artifactId>
<version>X.X.X</version>
</dependency>
</dependencies>
Instalējiet Tess4J, izmantojot GitHub
git clone https://github.com/nguyenq/tess4j.git
Varat to instalēt arī manuāli; lejupielādējiet jaunāko laidienu failus tieši no GitHub krātuves.
Satura ieguve, izmantojot Java API
Atvērtā pirmkoda Tess4J bibliotēka ļauj programmatūras izstrādātājiem izvilkt tekstu no dažāda veida attēliem Java lietojumprogrammās. Bibliotēka ļauj iegūt tekstu no attēliem, ļaujot lietojumprogrammām analizēt un apstrādāt teksta saturu. Šī iespēja atrod pielietojumu tādās jomās kā sentimenta analīze, teksta apkopošana un informācijas izguve. Bibliotēka arī ļauj ērti ielādēt Tesseract OCR dzinēju, veikt satura izvilkšanu norādītajā attēlā un izdrukāto tekstu konsolē.
Veiciet satura izvilkšanu, izmantojot Java OCR bibliotēku
import net.sourceforge.tess4j.Tesseract;
import net.sourceforge.tess4j.TesseractException;
public class ContentExtractionExample {
public static void main(String[] args) {
// Path to the Tesseract OCR installation directory
String tessDataPath = "path/to/tesseract";
// Initialize Tesseract instance
Tesseract tesseract = new Tesseract();
tesseract.setDatapath(tessDataPath);
try {
// Set the language for OCR (e.g., "eng" for English)
tesseract.setLanguage("eng");
// Path to the image file for content extraction
String imagePath = "path/to/image.jpg";
// Perform content extraction
String extractedText = tesseract.doOCR(new File(imagePath));
System.out.println(extractedText);
} catch (TesseractException e) {
e.printStackTrace();
}
}
}
PDF konvertēšana uz vienkāršu tekstu, izmantojot Java API
Atvērtā pirmkoda Tess4J bibliotēka ir nodrošinājusi pilnīgu funkcionalitāti PDF dokumentu ielādei un konvertēšanai vienkāršā tekstā Java lietojumprogrammās. Tess4J var pārvērst meklējamus PDF dokumentus vienkāršā tekstā, ļaujot izstrādātājiem iegūt saturu no PDF failiem un veikt turpmāku analīzi vai datu apstrādi. Šis piemērs parāda, kā programmatūras izstrādātāji var pārvērst esošu PDF failu vienkāršā tekstā Java lietojumprogrammās.
Kā esošu PDF failu pārveidot par vienkāršu tekstu?
import net.sourceforge.tess4j.Tesseract;
import net.sourceforge.tess4j.TesseractException;
import org.apache.pdfbox.pdmodel.PDDocument;
import org.apache.pdfbox.text.PDFTextStripper;
import java.io.File;
import java.io.IOException;
public class PDFToTextConverter {
public static void main(String[] args) {
// Path to the PDF file
String filePath = "path/to/your/pdf/file.pdf";
try {
// Load the PDF document
PDDocument document = PDDocument.load(new File(filePath));
// Create an instance of Tesseract OCR engine
Tesseract tesseract = new Tesseract();
// Set the path to the tessdata directory (containing language data)
tesseract.setDatapath("path/to/your/tessdata/directory");
// Iterate over each page of the PDF document
for (int pageIndex = 0; pageIndex < document.getNumberOfPages(); pageIndex++) {
// Extract the text from the current page
PDFTextStripper stripper = new PDFTextStripper();
stripper.setStartPage(pageIndex + 1);
stripper.setEndPage(pageIndex + 1);
String pageText = stripper.getText(document);
// Perform OCR on the extracted text
String ocrText = tesseract.doOCR(pageText);
// Output the OCR result
System.out.println("Page " + (pageIndex + 1) + " OCR Result:");
System.out.println(ocrText);
System.out.println("--------------------------------------");
}
// Close the PDF document
document.close();
} catch (IOException | TesseractException e) {
e.printStackTrace();
}
}
}