Gratis Java-bibliotek för OCR-textextraktion och dokumentanalys
Open Source Java OCR-bibliotek för att integrera OCR-funktioner i Java-appar och möjliggör extrahering av text från bilder såväl som skannade dokument.
I dagens digitala tidsålder har Optical Character Recognition (OCR) blivit ett viktigt verktyg för att extrahera text från bilder och skannade dokument. OCR-teknik möjliggör omvandling av tryckt eller handskriven text till maskinläsbar data, vilket öppnar upp för många möjligheter för dokumentanalys, dataextraktion och automatisering. Bland de många tillgängliga OCR-lösningarna utmärker sig Tess4J som ett kraftfullt bibliotek med öppen källkod som kombinerar mångsidigheten hos Tesseract OCR-motor med enkelheten i Java-programmering.
Tess4J-biblioteket ger Java-utvecklare möjlighet att integrera OCR-funktioner sömlöst i sina applikationer. Det är ett Java-omslag för Tesseract, en OCR-motor som ursprungligen utvecklades av Hewlett-Packard och för närvarande underhålls av Google. Tess4J utnyttjar Tesseracts OCR-motor, känd för sin noggrannhet. Den använder avancerade algoritmer och maskininlärningstekniker för att uppnå tillförlitlig textextraktion från bilder, vilket säkerställer resultat av hög kvalitet. Den möjliggör OCR-integrering i Java-applikationer, vilket gör den kompatibel med olika plattformar, inklusive Windows, Linux och macOS.
Tess4J tillhandahåller ett enkelt och väldokumenterat API, vilket gör det enkelt för utvecklare att integrera OCR-funktioner i sina Java-applikationer. Tess4J är ett mångsidigt och robust bibliotek med öppen källkod som ger utvecklare möjlighet att integrera kraftfulla OCR-funktioner i sina Java-applikationer. Med sitt stöd för flera språk, bildförbehandlingsfunktioner, PDF-konverteringsmöjligheter och konfidenspoängsystem ger Tess4J en effektiv och pålitlig lösning för textextraktion och dokumentanalys.
Komma igång med Tess4J
Det rekommenderade sättet att installera Tess4J är att använda Maven. Använd följande kommando för en smidig installation.
Maven Dependency för Tess4J
<dependencies>
<dependency>
<groupId>net.sourceforge.tess4j</groupId>
<artifactId>tess4j;/artifactId>
<version>X.X.X</version>
</dependency>
</dependencies>
Installera Tess4J via GitHub
git clone https://github.com/nguyenq/tess4j.git
Du kan också installera det manuellt; ladda ner de senaste versionsfilerna direkt från GitHub-förrådet.
Innehållsextraktion via Java API
Tess4J-biblioteket med öppen källkod tillåter programutvecklare att extrahera text från olika typer av bilder i Java-applikationer. Biblioteket möjliggör extrahering av text från bilder, vilket gör det möjligt för applikationer att analysera och bearbeta textinnehållet. Denna förmåga hittar tillämpningar inom områden som sentimentanalys, textsammanfattning och informationssökning. Biblioteket gör det också enkelt att ladda Tesseract OCR-motorn, utföra innehållsextraktion på den angivna bilden och skriva ut den extraherade texten till konsolen.
Utför innehållsextraktion med Java OCR Library
import net.sourceforge.tess4j.Tesseract;
import net.sourceforge.tess4j.TesseractException;
public class ContentExtractionExample {
public static void main(String[] args) {
// Path to the Tesseract OCR installation directory
String tessDataPath = "path/to/tesseract";
// Initialize Tesseract instance
Tesseract tesseract = new Tesseract();
tesseract.setDatapath(tessDataPath);
try {
// Set the language for OCR (e.g., "eng" for English)
tesseract.setLanguage("eng");
// Path to the image file for content extraction
String imagePath = "path/to/image.jpg";
// Perform content extraction
String extractedText = tesseract.doOCR(new File(imagePath));
System.out.println(extractedText);
} catch (TesseractException e) {
e.printStackTrace();
}
}
}
PDF-konvertering till vanlig text via Java API
Tess4J-biblioteket med öppen källkod har tillhandahållit komplett funktionalitet för att ladda och konvertera PDF-dokument till en vanlig text i Java-applikationer. Tess4J kan konvertera sökbara PDF-dokument till vanlig text, vilket gör det möjligt för utvecklare att extrahera innehåll från PDF-filer och utföra ytterligare analys eller databearbetning. Följande exempel visar hur programutvecklare kan konvertera en befintlig PDF-fil till vanlig text i Java-program.
Hur konverterar man en befintlig PDF-fil till vanlig text?
import net.sourceforge.tess4j.Tesseract;
import net.sourceforge.tess4j.TesseractException;
import org.apache.pdfbox.pdmodel.PDDocument;
import org.apache.pdfbox.text.PDFTextStripper;
import java.io.File;
import java.io.IOException;
public class PDFToTextConverter {
public static void main(String[] args) {
// Path to the PDF file
String filePath = "path/to/your/pdf/file.pdf";
try {
// Load the PDF document
PDDocument document = PDDocument.load(new File(filePath));
// Create an instance of Tesseract OCR engine
Tesseract tesseract = new Tesseract();
// Set the path to the tessdata directory (containing language data)
tesseract.setDatapath("path/to/your/tessdata/directory");
// Iterate over each page of the PDF document
for (int pageIndex = 0; pageIndex < document.getNumberOfPages(); pageIndex++) {
// Extract the text from the current page
PDFTextStripper stripper = new PDFTextStripper();
stripper.setStartPage(pageIndex + 1);
stripper.setEndPage(pageIndex + 1);
String pageText = stripper.getText(document);
// Perform OCR on the extracted text
String ocrText = tesseract.doOCR(pageText);
// Output the OCR result
System.out.println("Page " + (pageIndex + 1) + " OCR Result:");
System.out.println(ocrText);
System.out.println("--------------------------------------");
}
// Close the PDF document
document.close();
} catch (IOException | TesseractException e) {
e.printStackTrace();
}
}
}