Gratis Java-bibliotek til OCR-tekstekstraktion og dokumentanalyse
Open Source Java OCR-bibliotek til inkorporering af OCR-funktioner i Java-apps og tillader udtrækning af tekst fra billeder såvel som scannede dokumenter.
I nutidens digitale tidsalder er Optical Character Recognition (OCR) blevet et vigtigt værktøj til at udtrække tekst fra billeder og scannede dokumenter. OCR-teknologi muliggør konvertering af trykt eller håndskrevet tekst til maskinlæsbare data, hvilket åbner op for adskillige muligheder for dokumentanalyse, dataudtræk og automatisering. Blandt de mange tilgængelige OCR-løsninger skiller Tess4J sig ud som et kraftfuldt open source-bibliotek, der kombinerer alsidigheden af Tesseract OCR-motoren med enkelheden ved Java-programmering.
Tess4J-biblioteket giver Java-udviklere mulighed for at inkorporere OCR-funktioner problemfrit i deres applikationer. Det er en Java-indpakning til Tesseract, en OCR-motor, der oprindeligt er udviklet af Hewlett-Packard og i øjeblikket vedligeholdes af Google. Tess4J udnytter Tesseracts OCR-motor, der er kendt for sin nøjagtighed. Den anvender avancerede algoritmer og maskinlæringsteknikker for at opnå pålidelig tekstudtrækning fra billeder, hvilket sikrer resultater af høj kvalitet. Det muliggør OCR-integration i Java-applikationer, hvilket gør det kompatibelt med forskellige platforme, herunder Windows, Linux og macOS.
Tess4J leverer en ligetil og veldokumenteret API, der gør det nemt for udviklere at integrere OCR-funktioner i deres Java-applikationer. Tess4J er et alsidigt og robust open source-bibliotek, der giver udviklere mulighed for at integrere kraftfulde OCR-funktioner i deres Java-applikationer. Med sin understøttelse af flere sprog, billedforbehandlingsfunktioner, PDF-konverteringsmuligheder og tillidsscoringssystem giver Tess4J en effektiv og pålidelig løsning til tekstudtræk og dokumentanalyse.
Kom godt i gang med Tess4J
Den anbefalede måde at installere Tess4J på er at bruge Maven. Brug venligst følgende kommando for en problemfri installation.
Maven Dependency for Tess4J
<dependencies>
<dependency>
<groupId>net.sourceforge.tess4j</groupId>
<artifactId>tess4j;/artifactId>
<version>X.X.X</version>
</dependency>
</dependencies>
Installer Tess4J via GitHub
git clone https://github.com/nguyenq/tess4j.git
Du kan også installere det manuelt; download de seneste udgivelsesfiler direkte fra GitHub-lageret.
Indholdsekstraktion via Java API
Open source Tess4J-biblioteket giver softwareudviklere mulighed for at udtrække tekst fra forskellige typer billeder inde i Java-applikationer. Biblioteket muliggør udtrækning af tekst fra billeder, hvilket gør det muligt for applikationer at analysere og behandle tekstindholdet. Denne kapacitet finder anvendelser inden for områder som følelsesanalyse, tekstresumé og informationssøgning. Biblioteket gør det også nemt at indlæse Tesseract OCR-motoren, udføre indholdsudtrækning på det angivne billede og udskrive den udpakkede tekst til konsollen.
Udfør indholdsudtræk ved hjælp af Java OCR Library
import net.sourceforge.tess4j.Tesseract;
import net.sourceforge.tess4j.TesseractException;
public class ContentExtractionExample {
public static void main(String[] args) {
// Path to the Tesseract OCR installation directory
String tessDataPath = "path/to/tesseract";
// Initialize Tesseract instance
Tesseract tesseract = new Tesseract();
tesseract.setDatapath(tessDataPath);
try {
// Set the language for OCR (e.g., "eng" for English)
tesseract.setLanguage("eng");
// Path to the image file for content extraction
String imagePath = "path/to/image.jpg";
// Perform content extraction
String extractedText = tesseract.doOCR(new File(imagePath));
System.out.println(extractedText);
} catch (TesseractException e) {
e.printStackTrace();
}
}
}
PDF-konvertering til almindelig tekst via Java API
Open source Tess4J-biblioteket har leveret komplet funktionalitet til indlæsning og konvertering af PDF-dokumenter til almindelig tekst i Java-applikationer. Tess4J kan konvertere søgbare PDF-dokumenter til almindelig tekst, hvilket gør det muligt for udviklere at udtrække indhold fra PDF-filer og udføre yderligere analyse eller databehandling. Følgende eksempel viser, hvordan softwareudviklere kan konvertere en eksisterende PDF-fil til almindelig tekst i Java-applikationer.
Hvordan konverteres en eksisterende PDF-fil til almindelig tekst?
import net.sourceforge.tess4j.Tesseract;
import net.sourceforge.tess4j.TesseractException;
import org.apache.pdfbox.pdmodel.PDDocument;
import org.apache.pdfbox.text.PDFTextStripper;
import java.io.File;
import java.io.IOException;
public class PDFToTextConverter {
public static void main(String[] args) {
// Path to the PDF file
String filePath = "path/to/your/pdf/file.pdf";
try {
// Load the PDF document
PDDocument document = PDDocument.load(new File(filePath));
// Create an instance of Tesseract OCR engine
Tesseract tesseract = new Tesseract();
// Set the path to the tessdata directory (containing language data)
tesseract.setDatapath("path/to/your/tessdata/directory");
// Iterate over each page of the PDF document
for (int pageIndex = 0; pageIndex < document.getNumberOfPages(); pageIndex++) {
// Extract the text from the current page
PDFTextStripper stripper = new PDFTextStripper();
stripper.setStartPage(pageIndex + 1);
stripper.setEndPage(pageIndex + 1);
String pageText = stripper.getText(document);
// Perform OCR on the extracted text
String ocrText = tesseract.doOCR(pageText);
// Output the OCR result
System.out.println("Page " + (pageIndex + 1) + " OCR Result:");
System.out.println(ocrText);
System.out.println("--------------------------------------");
}
// Close the PDF document
document.close();
} catch (IOException | TesseractException e) {
e.printStackTrace();
}
}
}