Bezpłatna biblioteka Java do ekstrakcji tekstu OCR i analizy dokumentów
Biblioteka OCR Java typu open source do włączania funkcji OCR do aplikacji Java i umożliwia wyodrębnianie tekstu z obrazów oraz zeskanowanych dokumentów.
W dzisiejszej erze cyfrowej optyczne rozpoznawanie znaków (OCR) stało się niezbędnym narzędziem do wyodrębniania tekstu z obrazów i zeskanowanych dokumentów. Technologia OCR umożliwia konwersję tekstu drukowanego lub pisanego odręcznie na dane do odczytu maszynowego, otwierając liczne możliwości analizy dokumentów, ekstrakcji danych i automatyzacji. Wśród wielu dostępnych rozwiązań OCR Tess4J wyróżnia się jako potężna biblioteka typu open source, która łączy w sobie wszechstronność silnika Tesseract OCR z prostotą programowania w języku Java.
Biblioteka Tess4J umożliwia programistom Java płynne włączanie funkcji OCR do swoich aplikacji. Jest to opakowanie Java dla Tesseract, silnika OCR pierwotnie opracowanego przez firmę Hewlett-Packard i obecnie obsługiwanego przez Google. Tess4J wykorzystuje silnik OCR Tesseract, znany ze swojej dokładności. Wykorzystuje zaawansowane algorytmy i techniki uczenia maszynowego, aby uzyskać niezawodną ekstrakcję tekstu z obrazów, zapewniając wysoką jakość wyników. Umożliwia integrację OCR z aplikacjami Java, dzięki czemu jest kompatybilny z różnymi platformami, w tym Windows, Linux i macOS.
Tess4J zapewnia proste i dobrze udokumentowane API, ułatwiające programistom integrację funkcji OCR z ich aplikacjami Java. Tess4J to wszechstronna i solidna biblioteka typu open source, która umożliwia programistom integrację zaawansowanych funkcji OCR z ich aplikacjami Java. Dzięki obsłudze wielu języków, funkcjom wstępnego przetwarzania obrazu, możliwościom konwersji plików PDF i systemowi oceny pewności, Tess4J zapewnia wydajne i niezawodne rozwiązanie do ekstrakcji tekstu i analizy dokumentów.
Pierwsze kroki z Tess4J
Zalecanym sposobem instalacji Tess4J jest użycie Mavena. Aby instalacja przebiegła bezproblemowo, użyj poniższego polecenia.
Zależność Mavena dla Tess4J
<dependencies>
<dependency>
<groupId>net.sourceforge.tess4j</groupId>
<artifactId>tess4j;/artifactId>
<version>X.X.X</version>
</dependency>
</dependencies>
Zainstaluj Tess4J przez GitHub
git clone https://github.com/nguyenq/tess4j.git
Możesz także zainstalować go ręcznie; pobierz pliki najnowszej wersji bezpośrednio z repozytorium GitHub.
Wyodrębnianie treści za pośrednictwem interfejsu API języka Java
Biblioteka Tess4J o otwartym kodzie źródłowym umożliwia twórcom oprogramowania wyodrębnianie tekstu z różnych typów obrazów w aplikacjach Java. Biblioteka umożliwia wyodrębnianie tekstu z obrazów, umożliwiając aplikacjom analizę i przetwarzanie treści tekstowych. Ta funkcja znajduje zastosowanie w takich obszarach, jak analiza nastrojów, podsumowywanie tekstu i wyszukiwanie informacji. Biblioteka ułatwia także załadowanie silnika Tesseract OCR, wyodrębnienie zawartości z określonego obrazu i wydrukowanie wyodrębnionego tekstu na konsoli.
Wyodrębnij zawartość przy użyciu biblioteki Java OCR
import net.sourceforge.tess4j.Tesseract;
import net.sourceforge.tess4j.TesseractException;
public class ContentExtractionExample {
public static void main(String[] args) {
// Path to the Tesseract OCR installation directory
String tessDataPath = "path/to/tesseract";
// Initialize Tesseract instance
Tesseract tesseract = new Tesseract();
tesseract.setDatapath(tessDataPath);
try {
// Set the language for OCR (e.g., "eng" for English)
tesseract.setLanguage("eng");
// Path to the image file for content extraction
String imagePath = "path/to/image.jpg";
// Perform content extraction
String extractedText = tesseract.doOCR(new File(imagePath));
System.out.println(extractedText);
} catch (TesseractException e) {
e.printStackTrace();
}
}
}
Konwersja pliku PDF na zwykły tekst za pośrednictwem interfejsu API języka Java
Biblioteka Tess4J o otwartym kodzie źródłowym zapewnia pełną funkcjonalność ładowania i konwertowania dokumentów PDF na zwykły tekst w aplikacjach Java. Tess4J może konwertować przeszukiwalne dokumenty PDF na zwykły tekst, umożliwiając programistom wyodrębnianie treści z plików PDF i przeprowadzanie dalszej analizy lub przetwarzania danych. Poniższy przykład pokazuje, jak twórcy oprogramowania mogą przekonwertować istniejący plik PDF na zwykły tekst w aplikacjach Java.
Jak przekonwertować istniejący plik PDF na zwykły tekst?
import net.sourceforge.tess4j.Tesseract;
import net.sourceforge.tess4j.TesseractException;
import org.apache.pdfbox.pdmodel.PDDocument;
import org.apache.pdfbox.text.PDFTextStripper;
import java.io.File;
import java.io.IOException;
public class PDFToTextConverter {
public static void main(String[] args) {
// Path to the PDF file
String filePath = "path/to/your/pdf/file.pdf";
try {
// Load the PDF document
PDDocument document = PDDocument.load(new File(filePath));
// Create an instance of Tesseract OCR engine
Tesseract tesseract = new Tesseract();
// Set the path to the tessdata directory (containing language data)
tesseract.setDatapath("path/to/your/tessdata/directory");
// Iterate over each page of the PDF document
for (int pageIndex = 0; pageIndex < document.getNumberOfPages(); pageIndex++) {
// Extract the text from the current page
PDFTextStripper stripper = new PDFTextStripper();
stripper.setStartPage(pageIndex + 1);
stripper.setEndPage(pageIndex + 1);
String pageText = stripper.getText(document);
// Perform OCR on the extracted text
String ocrText = tesseract.doOCR(pageText);
// Output the OCR result
System.out.println("Page " + (pageIndex + 1) + " OCR Result:");
System.out.println(ocrText);
System.out.println("--------------------------------------");
}
// Close the PDF document
document.close();
} catch (IOException | TesseractException e) {
e.printStackTrace();
}
}
}