Gratis Java-bibliotek for OCR-tekstekstraksjon og dokumentanalyse
Open Source Java OCR-bibliotek for å inkorporere OCR-funksjoner i Java-apper og tillater uttrekking av tekst fra bilder så vel som skannede dokumenter.
I dagens digitale tidsalder har Optical Character Recognition (OCR) blitt et viktig verktøy for å trekke ut tekst fra bilder og skannede dokumenter. OCR-teknologi muliggjør konvertering av trykt eller håndskrevet tekst til maskinlesbare data, noe som åpner for mange muligheter for dokumentanalyse, datautvinning og automatisering. Blant de mange OCR-løsningene som er tilgjengelige, skiller Tess4J seg ut som et kraftig åpen kildekode-bibliotek som kombinerer allsidigheten til Tesseract OCR-motoren med enkelheten til Java-programmering.
Tess4J-biblioteket gir Java-utviklere mulighet til å integrere OCR-funksjoner sømløst i applikasjonene sine. Det er en Java-innpakning for Tesseract, en OCR-motor opprinnelig utviklet av Hewlett-Packard og for tiden vedlikeholdt av Google. Tess4J utnytter Tesseracts OCR-motor, kjent for sin nøyaktighet. Den bruker avanserte algoritmer og maskinlæringsteknikker for å oppnå pålitelig tekstutvinning fra bilder, og sikre resultater av høy kvalitet. Den muliggjør OCR-integrering i Java-applikasjoner, noe som gjør den kompatibel med forskjellige plattformer, inkludert Windows, Linux og macOS.
Tess4J gir en enkel og godt dokumentert API, som gjør det enkelt for utviklere å integrere OCR-funksjoner i Java-applikasjonene sine. Tess4J er et allsidig og robust åpen kildekode-bibliotek som gir utviklere mulighet til å integrere kraftige OCR-funksjoner i Java-applikasjonene sine. Med støtte for flere språk, bildeforbehandlingsfunksjoner, PDF-konverteringsmuligheter og system for tillitsscoring, gir Tess4J en effektiv og pålitelig løsning for tekstutvinning og dokumentanalyse.
Kom i gang med Tess4J
Den anbefalte måten å installere Tess4J på er å bruke Maven. Bruk følgende kommando for en jevn installasjon.
Maven Dependency for Tess4J
<dependencies>
<dependency>
<groupId>net.sourceforge.tess4j</groupId>
<artifactId>tess4j;/artifactId>
<version>X.X.X</version>
</dependency>
</dependencies>
Installer Tess4J via GitHub
git clone https://github.com/nguyenq/tess4j.git
Du kan også installere det manuelt; last ned de siste utgivelsesfilene direkte fra GitHub-depotet.
Innholdsekstraksjon via Java API
Åpen kildekode Tess4J-biblioteket lar programvareutviklere trekke ut tekst fra ulike typer bilder i Java-applikasjoner. Biblioteket gjør det mulig å trekke ut tekst fra bilder, slik at applikasjoner kan analysere og behandle tekstinnholdet. Denne funksjonen finner applikasjoner innen områder som sentimentanalyse, tekstoppsummering og informasjonsinnhenting. Biblioteket gjør det også enkelt å laste inn Tesseract OCR-motoren, utføre innholdsutvinning på det angitte bildet og skrive ut den utpakkede teksten til konsollen.
Utfør innholdsutvinning ved hjelp av Java OCR Library
import net.sourceforge.tess4j.Tesseract;
import net.sourceforge.tess4j.TesseractException;
public class ContentExtractionExample {
public static void main(String[] args) {
// Path to the Tesseract OCR installation directory
String tessDataPath = "path/to/tesseract";
// Initialize Tesseract instance
Tesseract tesseract = new Tesseract();
tesseract.setDatapath(tessDataPath);
try {
// Set the language for OCR (e.g., "eng" for English)
tesseract.setLanguage("eng");
// Path to the image file for content extraction
String imagePath = "path/to/image.jpg";
// Perform content extraction
String extractedText = tesseract.doOCR(new File(imagePath));
System.out.println(extractedText);
} catch (TesseractException e) {
e.printStackTrace();
}
}
}
PDF-konvertering til ren tekst via Java API
Åpen kildekode Tess4J-biblioteket har gitt komplett funksjonalitet for å laste og konvertere PDF-dokumenter til en ren tekst i Java-applikasjoner. Tess4J kan konvertere søkbare PDF-dokumenter til ren tekst, slik at utviklere kan trekke ut innhold fra PDF-filer og utføre ytterligere analyser eller databehandling. Følgende eksempel viser hvordan programvareutviklere kan konvertere en eksisterende PDF-fil til ren tekst i Java-applikasjoner.
Hvordan konvertere en eksisterende PDF-fil til ren tekst?
import net.sourceforge.tess4j.Tesseract;
import net.sourceforge.tess4j.TesseractException;
import org.apache.pdfbox.pdmodel.PDDocument;
import org.apache.pdfbox.text.PDFTextStripper;
import java.io.File;
import java.io.IOException;
public class PDFToTextConverter {
public static void main(String[] args) {
// Path to the PDF file
String filePath = "path/to/your/pdf/file.pdf";
try {
// Load the PDF document
PDDocument document = PDDocument.load(new File(filePath));
// Create an instance of Tesseract OCR engine
Tesseract tesseract = new Tesseract();
// Set the path to the tessdata directory (containing language data)
tesseract.setDatapath("path/to/your/tessdata/directory");
// Iterate over each page of the PDF document
for (int pageIndex = 0; pageIndex < document.getNumberOfPages(); pageIndex++) {
// Extract the text from the current page
PDFTextStripper stripper = new PDFTextStripper();
stripper.setStartPage(pageIndex + 1);
stripper.setEndPage(pageIndex + 1);
String pageText = stripper.getText(document);
// Perform OCR on the extracted text
String ocrText = tesseract.doOCR(pageText);
// Output the OCR result
System.out.println("Page " + (pageIndex + 1) + " OCR Result:");
System.out.println(ocrText);
System.out.println("--------------------------------------");
}
// Close the PDF document
document.close();
} catch (IOException | TesseractException e) {
e.printStackTrace();
}
}
}