Leabharlann Java saor in aisce le haghaidh Baint Téacs OCR agus Anailís Doiciméad
Foinse Oscailte Leabharlann Java OCR chun cumais OCR a Ionchorprú i apps Java agus ceadaíonn sé Téacs a Bhaint as Íomhánna chomh maith le Doiciméid Scanta.
In ré dhigiteach an lae inniu, tá Aithint Optúil Carachtair (OCR) anois ina uirlis riachtanach chun téacs a bhaint as íomhánna agus as doiciméid scanta. Cumasaíonn teicneolaíocht OCR téacs clóite nó lámhscríofa a thiontú go sonraí meaisín-inléite, rud a fhágann go leor féidearthachtaí maidir le hanailís doiciméad, asbhaint sonraí, agus uathoibriú. I measc an iliomad réiteach OCR atá ar fáil, seasann Tess4J amach mar leabharlann chumhachtach foinse oscailte a chomhcheanglaíonn solúbthacht an innill Tesseract OCR le simplíocht ríomhchlárú Java.
Cumhachtaíonn leabharlann Tess4J d’fhorbróirí Java cumais OCR a ionchorprú gan uaim ina bhfeidhmchláir. Is fillteán Java é do Tesseract, inneall OCR a d'fhorbair Hewlett-Packard ar dtús agus atá á chothabháil ag Google faoi láthair. Úsáideann Tess4J inneall OCR Tesseract, a bhfuil cáil air as a chruinneas. Úsáideann sé ard-halgartaim agus teicnící meaisínfhoghlama chun eastóscadh iontaofa téacs a bhaint amach ó íomhánna, ag cinntiú torthaí ardchaighdeáin. Cumasaíonn sé comhtháthú OCR i bhfeidhmchláir Java, rud a fhágann go bhfuil sé comhoiriúnach le hardáin éagsúla, lena n-áirítear Windows, Linux, agus macOS.
Soláthraíonn Tess4J API simplí agus dea-dhoiciméadaithe, rud a fhágann go bhfuil sé éasca d’fhorbróirí cumais OCR a chomhtháthú ina bhfeidhmchláir Java. Is leabharlann foinse oscailte ildánach agus láidir í Tess4J a chuireann ar chumas forbróirí cumais OCR chumhachtacha a chomhtháthú ina bhfeidhmchláir Java. Leis an tacaíocht a thugann sé d'iltheangacha, gnéithe réamhphróiseála íomhá, cumais tiontaithe PDF, agus córas scórála muiníne, soláthraíonn Tess4J réiteach éifeachtach iontaofa le haghaidh eastóscadh téacs agus anailís doiciméad.
Tús le Tess4J
Is é Maven an bealach molta chun Tess4J a shuiteáil. Bain úsáid as an ordú seo a leanas le haghaidh suiteáil rianúil.
Cleithiúnaí Maven do Tess4J
<dependencies>
<dependency>
<groupId>net.sourceforge.tess4j</groupId>
<artifactId>tess4j;/artifactId>
<version>X.X.X</version>
</dependency>
</dependencies>
Suiteáil Tess4J trí GitHub
git clone https://github.com/nguyenq/tess4j.git
Is féidir leat é a shuiteáil de láimh freisin; íoslódáil na comhaid eisithe is déanaí go díreach ó GitHub stór.
Eastóscadh Ábhar trí Java API
Ceadaíonn leabharlann foinse oscailte Tess4J d’fhorbróirí bogearraí téacs a bhaint as cineálacha éagsúla íomhánna laistigh d’fheidhmchláir Java. Cumasaíonn an leabharlann téacs a bhaint as íomhánna, rud a ligeann d’fheidhmchláir anailís agus próiseáil a dhéanamh ar an ábhar téacs. Aimsíonn an cumas seo feidhmchláir i réimsí cosúil le hanailís meon, achoimre téacs, agus aisghabháil faisnéise. Déanann an leabharlann éasca freisin an t-inneall Tesseract OCR a luchtú, eastóscadh inneachair a dhéanamh ar an íomhá sonraithe, agus an téacs a bhaintear a phriontáil chuig an consól.
Déan Eastóscadh Ábhar ag úsáid Leabharlann Java OCR
import net.sourceforge.tess4j.Tesseract;
import net.sourceforge.tess4j.TesseractException;
public class ContentExtractionExample {
public static void main(String[] args) {
// Path to the Tesseract OCR installation directory
String tessDataPath = "path/to/tesseract";
// Initialize Tesseract instance
Tesseract tesseract = new Tesseract();
tesseract.setDatapath(tessDataPath);
try {
// Set the language for OCR (e.g., "eng" for English)
tesseract.setLanguage("eng");
// Path to the image file for content extraction
String imagePath = "path/to/image.jpg";
// Perform content extraction
String extractedText = tesseract.doOCR(new File(imagePath));
System.out.println(extractedText);
} catch (TesseractException e) {
e.printStackTrace();
}
}
}
Tiontú PDF go Gnáth-théacs trí Java API
Chuir leabharlann foinse oscailte Tess4J feidhm iomlán ar fáil chun doiciméid PDF a luchtú agus a thiontú ina ngnáth-théacs laistigh d’fheidhmchláir Java. Is féidir le Tess4J doiciméid inchuardaithe PDF a thiontú ina ngnáth-théacs, rud a chuireann ar chumas forbróirí ábhar a bhaint as comhaid PDF agus anailís bhreise nó próiseáil sonraí a dhéanamh. Léiríonn an sampla seo a leanas conas is féidir le forbróirí bogearraí comhad PDF atá ann cheana a thiontú go gnáth-théacs laistigh d'fheidhmchláir Java.
Conas Comhad PDF Reatha a Thiontú go Gnáth-théacs?
import net.sourceforge.tess4j.Tesseract;
import net.sourceforge.tess4j.TesseractException;
import org.apache.pdfbox.pdmodel.PDDocument;
import org.apache.pdfbox.text.PDFTextStripper;
import java.io.File;
import java.io.IOException;
public class PDFToTextConverter {
public static void main(String[] args) {
// Path to the PDF file
String filePath = "path/to/your/pdf/file.pdf";
try {
// Load the PDF document
PDDocument document = PDDocument.load(new File(filePath));
// Create an instance of Tesseract OCR engine
Tesseract tesseract = new Tesseract();
// Set the path to the tessdata directory (containing language data)
tesseract.setDatapath("path/to/your/tessdata/directory");
// Iterate over each page of the PDF document
for (int pageIndex = 0; pageIndex < document.getNumberOfPages(); pageIndex++) {
// Extract the text from the current page
PDFTextStripper stripper = new PDFTextStripper();
stripper.setStartPage(pageIndex + 1);
stripper.setEndPage(pageIndex + 1);
String pageText = stripper.getText(document);
// Perform OCR on the extracted text
String ocrText = tesseract.doOCR(pageText);
// Output the OCR result
System.out.println("Page " + (pageIndex + 1) + " OCR Result:");
System.out.println(ocrText);
System.out.println("--------------------------------------");
}
// Close the PDF document
document.close();
} catch (IOException | TesseractException e) {
e.printStackTrace();
}
}
}