Nemokama Java biblioteka, skirta OCR teksto ištraukimui ir dokumentų analizei
Atvirojo kodo „Java“ OCR biblioteka, skirta OCR galimybėms įtraukti į „Java“ programas ir leidžia išgauti tekstą iš vaizdų bei nuskaitytų dokumentų.
Šiuolaikiniame skaitmeniniame amžiuje optinis simbolių atpažinimas (OCR) tapo esminiu įrankiu išgauti tekstą iš vaizdų ir nuskaitytų dokumentų. OCR technologija leidžia konvertuoti spausdintą ar ranka rašytą tekstą į mašininio skaitomus duomenis, atverdama daugybę dokumentų analizės, duomenų išgavimo ir automatizavimo galimybių. Tarp daugybės galimų OCR sprendimų Tess4J išsiskiria kaip galinga atvirojo kodo biblioteka, sujungianti Tesseract OCR variklio universalumą ir Java programavimo paprastumą.
Tess4J biblioteka suteikia Java kūrėjams galimybę sklandžiai įtraukti OCR galimybes į savo programas. Tai „Tesseract“, OCR variklio, kurį iš pradžių sukūrė „Hewlett-Packard“ ir šiuo metu prižiūri „Google“, skirtas „Java“ įvynioklis. Tess4J naudoja Tesseract OCR variklį, garsėjantį savo tikslumu. Jame naudojami pažangūs algoritmai ir mašininio mokymosi metodai, kad būtų galima patikimai išgauti tekstą iš vaizdų ir užtikrinti aukštos kokybės rezultatus. Jis įgalina OCR integravimą į „Java“ programas, todėl yra suderinamas su įvairiomis platformomis, įskaitant „Windows“, „Linux“ ir „MacOS“.
Tess4J suteikia paprastą ir gerai dokumentuotą API, todėl kūrėjai gali lengvai integruoti OCR galimybes į savo Java programas. Tess4J yra universali ir tvirta atvirojo kodo biblioteka, kuri suteikia kūrėjams galimybę integruoti galingas OCR galimybes į savo Java programas. Tess4J, palaikanti kelias kalbas, išankstinio vaizdų apdorojimo funkcijas, PDF konvertavimo galimybes ir patikimumo balų sistemą, yra efektyvus ir patikimas teksto ištraukimo ir dokumentų analizės sprendimas.
Darbo Tess4J pradžia
Rekomenduojamas būdas įdiegti Tess4J yra naudoti Maven. Norėdami sklandžiai įdiegti, naudokite šią komandą.
Maven priklausomybė nuo Tess4J
<dependencies>
<dependency>
<groupId>net.sourceforge.tess4j</groupId>
<artifactId>tess4j;/artifactId>
<version>X.X.X</version>
</dependency>
</dependencies>
Įdiekite „Tess4J“ per „GitHub“.
git clone https://github.com/nguyenq/tess4j.git
Taip pat galite įdiegti rankiniu būdu; atsisiųskite naujausius leidimo failus tiesiai iš GitHub saugyklos.
Turinio išgavimas naudojant Java API
Atvirojo kodo Tess4J biblioteka leidžia programinės įrangos kūrėjams išgauti tekstą iš įvairių tipų vaizdų Java programose. Biblioteka leidžia išgauti tekstą iš vaizdų, todėl programos gali analizuoti ir apdoroti tekstinį turinį. Ši galimybė randa pritaikymą tokiose srityse kaip nuotaikų analizė, teksto apibendrinimas ir informacijos paieška. Biblioteka taip pat leidžia lengvai įkelti Tesseract OCR variklį, atlikti nurodyto vaizdo turinio ištraukimą ir spausdinti ištrauktą tekstą į konsolę.
Atlikite turinio ištraukimą naudodami „Java“ OCR biblioteką
import net.sourceforge.tess4j.Tesseract;
import net.sourceforge.tess4j.TesseractException;
public class ContentExtractionExample {
public static void main(String[] args) {
// Path to the Tesseract OCR installation directory
String tessDataPath = "path/to/tesseract";
// Initialize Tesseract instance
Tesseract tesseract = new Tesseract();
tesseract.setDatapath(tessDataPath);
try {
// Set the language for OCR (e.g., "eng" for English)
tesseract.setLanguage("eng");
// Path to the image file for content extraction
String imagePath = "path/to/image.jpg";
// Perform content extraction
String extractedText = tesseract.doOCR(new File(imagePath));
System.out.println(extractedText);
} catch (TesseractException e) {
e.printStackTrace();
}
}
}
PDF konvertavimas į paprastą tekstą naudojant Java API
Atvirojo kodo Tess4J biblioteka suteikė visas funkcijas, skirtas įkelti ir konvertuoti PDF dokumentus į paprastą tekstą Java programose. Tess4J gali konvertuoti ieškomus PDF dokumentus į paprastą tekstą, todėl kūrėjai gali išgauti turinį iš PDF failų ir atlikti tolesnę analizę ar duomenų apdorojimą. Šiame pavyzdyje parodyta, kaip programinės įrangos kūrėjai gali konvertuoti esamą PDF failą į paprastą tekstą „Java“ programose.
Kaip konvertuoti esamą PDF failą į paprastą tekstą?
import net.sourceforge.tess4j.Tesseract;
import net.sourceforge.tess4j.TesseractException;
import org.apache.pdfbox.pdmodel.PDDocument;
import org.apache.pdfbox.text.PDFTextStripper;
import java.io.File;
import java.io.IOException;
public class PDFToTextConverter {
public static void main(String[] args) {
// Path to the PDF file
String filePath = "path/to/your/pdf/file.pdf";
try {
// Load the PDF document
PDDocument document = PDDocument.load(new File(filePath));
// Create an instance of Tesseract OCR engine
Tesseract tesseract = new Tesseract();
// Set the path to the tessdata directory (containing language data)
tesseract.setDatapath("path/to/your/tessdata/directory");
// Iterate over each page of the PDF document
for (int pageIndex = 0; pageIndex < document.getNumberOfPages(); pageIndex++) {
// Extract the text from the current page
PDFTextStripper stripper = new PDFTextStripper();
stripper.setStartPage(pageIndex + 1);
stripper.setEndPage(pageIndex + 1);
String pageText = stripper.getText(document);
// Perform OCR on the extracted text
String ocrText = tesseract.doOCR(pageText);
// Output the OCR result
System.out.println("Page " + (pageIndex + 1) + " OCR Result:");
System.out.println(ocrText);
System.out.println("--------------------------------------");
}
// Close the PDF document
document.close();
} catch (IOException | TesseractException e) {
e.printStackTrace();
}
}
}