Biblioteca Java gratuită pentru extragerea textului OCR și analiza documentelor
Bibliotecă Java OCR cu sursă deschisă pentru încorporarea capabilităților OCR în aplicațiile Java și permite extragerea textului din imagini, precum și din documente scanate.
În era digitală de astăzi, recunoașterea optică a caracterelor (OCR) a devenit un instrument esențial pentru extragerea textului din imagini și documente scanate. Tehnologia OCR permite conversia textului tipărit sau scris de mână în date care pot fi citite de mașină, deschizând numeroase posibilități pentru analiza documentelor, extragerea datelor și automatizare. Printre numeroasele soluții OCR disponibile, Tess4J se remarcă ca o bibliotecă open-source puternică care combină versatilitatea motorului Tesseract OCR cu simplitatea programării Java.
Biblioteca Tess4J permite dezvoltatorilor Java să încorporeze perfect capabilități OCR în aplicațiile lor. Este un wrapper Java pentru Tesseract, un motor OCR dezvoltat inițial de Hewlett-Packard și întreținut în prezent de Google. Tess4J folosește motorul OCR al Tesseract, renumit pentru acuratețea sa. Utilizează algoritmi avansați și tehnici de învățare automată pentru a obține extragerea fiabilă a textului din imagini, asigurând rezultate de înaltă calitate. Permite integrarea OCR în aplicațiile Java, făcându-l compatibil cu diferite platforme, inclusiv Windows, Linux și macOS.
Tess4J oferă un API simplu și bine documentat, facilitând pentru dezvoltatori să integreze capabilitățile OCR în aplicațiile lor Java. Tess4J este o bibliotecă open-source, versatilă și robustă, care permite dezvoltatorilor să integreze capabilități OCR puternice în aplicațiile lor Java. Cu suportul pentru mai multe limbi, funcțiile de preprocesare a imaginilor, capabilitățile de conversie PDF și sistemul de punctare al încrederii, Tess4J oferă o soluție eficientă și fiabilă pentru extragerea textului și analiza documentelor.
Noțiuni introductive cu Tess4J
Modul recomandat de a instala Tess4J este folosirea Maven. Vă rugăm să utilizați următoarea comandă pentru o instalare fără probleme.
Dependența Maven pentru Tess4J
<dependencies>
<dependency>
<groupId>net.sourceforge.tess4j</groupId>
<artifactId>tess4j;/artifactId>
<version>X.X.X</version>
</dependency>
</dependencies>
Instalați Tess4J prin GitHub
git clone https://github.com/nguyenq/tess4j.git
De asemenea, îl puteți instala manual; descărcați cele mai recente fișiere de lansare direct din depozitul GitHub.
Extragerea conținutului prin API-ul Java
Biblioteca open source Tess4J permite dezvoltatorilor de software să extragă text din diferite tipuri de imagini din aplicațiile Java. Biblioteca permite extragerea de text din imagini, permițând aplicațiilor să analizeze și să proceseze conținutul textual. Această capacitate găsește aplicații în domenii precum analiza sentimentelor, rezumarea textului și regăsirea informațiilor. De asemenea, biblioteca facilitează încărcarea motorului Tesseract OCR, extragerea conținutului pe imaginea specificată și tipărirea textului extras pe consolă.
Efectuați extragerea conținutului folosind biblioteca OCR Java
import net.sourceforge.tess4j.Tesseract;
import net.sourceforge.tess4j.TesseractException;
public class ContentExtractionExample {
public static void main(String[] args) {
// Path to the Tesseract OCR installation directory
String tessDataPath = "path/to/tesseract";
// Initialize Tesseract instance
Tesseract tesseract = new Tesseract();
tesseract.setDatapath(tessDataPath);
try {
// Set the language for OCR (e.g., "eng" for English)
tesseract.setLanguage("eng");
// Path to the image file for content extraction
String imagePath = "path/to/image.jpg";
// Perform content extraction
String extractedText = tesseract.doOCR(new File(imagePath));
System.out.println(extractedText);
} catch (TesseractException e) {
e.printStackTrace();
}
}
}
Conversie PDF în text simplu prin API-ul Java
Biblioteca open source Tess4J a oferit funcționalitate completă pentru încărcarea și convertirea documentelor PDF într-un text simplu în cadrul aplicațiilor Java. Tess4J poate converti documentele PDF care pot fi căutate în text simplu, permițând dezvoltatorilor să extragă conținut din fișierele PDF și să efectueze analize sau procesări suplimentare de date. Următorul exemplu arată cum dezvoltatorii de software pot converti un fișier PDF existent în text simplu în cadrul aplicațiilor Java.
Cum se transformă un fișier PDF existent în text simplu?
import net.sourceforge.tess4j.Tesseract;
import net.sourceforge.tess4j.TesseractException;
import org.apache.pdfbox.pdmodel.PDDocument;
import org.apache.pdfbox.text.PDFTextStripper;
import java.io.File;
import java.io.IOException;
public class PDFToTextConverter {
public static void main(String[] args) {
// Path to the PDF file
String filePath = "path/to/your/pdf/file.pdf";
try {
// Load the PDF document
PDDocument document = PDDocument.load(new File(filePath));
// Create an instance of Tesseract OCR engine
Tesseract tesseract = new Tesseract();
// Set the path to the tessdata directory (containing language data)
tesseract.setDatapath("path/to/your/tessdata/directory");
// Iterate over each page of the PDF document
for (int pageIndex = 0; pageIndex < document.getNumberOfPages(); pageIndex++) {
// Extract the text from the current page
PDFTextStripper stripper = new PDFTextStripper();
stripper.setStartPage(pageIndex + 1);
stripper.setEndPage(pageIndex + 1);
String pageText = stripper.getText(document);
// Perform OCR on the extracted text
String ocrText = tesseract.doOCR(pageText);
// Output the OCR result
System.out.println("Page " + (pageIndex + 1) + " OCR Result:");
System.out.println(ocrText);
System.out.println("--------------------------------------");
}
// Close the PDF document
document.close();
} catch (IOException | TesseractException e) {
e.printStackTrace();
}
}
}