Бесплатная библиотека Java для извлечения текста OCR и анализа документов
Библиотека Java OCR с открытым исходным кодом для включения возможностей OCR в приложения Java и позволяет извлекать текст из изображений, а также отсканированных документов.
В современную цифровую эпоху оптическое распознавание символов (OCR) стало важным инструментом для извлечения текста из изображений и отсканированных документов. Технология оптического распознавания символов позволяет преобразовывать печатный или рукописный текст в машиночитаемые данные, открывая многочисленные возможности для анализа документов, извлечения данных и автоматизации. Среди множества доступных решений OCR Tess4J выделяется как мощная библиотека с открытым исходным кодом, сочетающая в себе универсальность механизма OCR Tesseract с простотой программирования на Java.
Библиотека Tess4J позволяет разработчикам Java легко включать возможности оптического распознавания символов в свои приложения. Это Java-оболочка для Tesseract, механизма оптического распознавания символов, первоначально разработанного Hewlett-Packard и в настоящее время поддерживаемого Google. Tess4J использует механизм оптического распознавания символов Tesseract, известный своей точностью. Он использует передовые алгоритмы и методы машинного обучения для надежного извлечения текста из изображений и обеспечения высококачественных результатов. Он обеспечивает интеграцию OCR в приложения Java, что делает его совместимым с различными платформами, включая Windows, Linux и macOS.
Tess4J предоставляет простой и хорошо документированный API, позволяющий разработчикам легко интегрировать возможности оптического распознавания текста в свои приложения Java. Tess4J — это универсальная и надежная библиотека с открытым исходным кодом, которая позволяет разработчикам интегрировать мощные возможности оптического распознавания символов в свои Java-приложения. Благодаря поддержке нескольких языков, функциям предварительной обработки изображений, возможностям преобразования PDF и системе оценки достоверности Tess4J обеспечивает эффективное и надежное решение для извлечения текста и анализа документов.
Начало работы с Tess4J
Рекомендуемый способ установки Tess4J — использование Maven. Пожалуйста, используйте следующую команду для плавной установки.
Зависимость Maven для Tess4J
<dependencies>
<dependency>
<groupId>net.sourceforge.tess4j</groupId>
<artifactId>tess4j;/artifactId>
<version>X.X.X</version>
</dependency>
</dependencies>
Установите Tess4J через GitHub
git clone https://github.com/nguyenq/tess4j.git
Вы также можете установить его вручную; загрузите файлы последней версии непосредственно из репозитория GitHub.
Извлечение контента через Java API
Библиотека Tess4J с открытым исходным кодом позволяет разработчикам программного обеспечения извлекать текст из изображений различных типов внутри приложений Java. Библиотека позволяет извлекать текст из изображений, позволяя приложениям анализировать и обрабатывать текстовый контент. Эта возможность находит применение в таких областях, как анализ настроений, обобщение текста и поиск информации. Библиотека также позволяет легко загрузить механизм OCR Tesseract, выполнить извлечение содержимого указанного изображения и вывести извлеченный текст на консоль.
Извлечение контента с помощью библиотеки Java OCR
import net.sourceforge.tess4j.Tesseract;
import net.sourceforge.tess4j.TesseractException;
public class ContentExtractionExample {
public static void main(String[] args) {
// Path to the Tesseract OCR installation directory
String tessDataPath = "path/to/tesseract";
// Initialize Tesseract instance
Tesseract tesseract = new Tesseract();
tesseract.setDatapath(tessDataPath);
try {
// Set the language for OCR (e.g., "eng" for English)
tesseract.setLanguage("eng");
// Path to the image file for content extraction
String imagePath = "path/to/image.jpg";
// Perform content extraction
String extractedText = tesseract.doOCR(new File(imagePath));
System.out.println(extractedText);
} catch (TesseractException e) {
e.printStackTrace();
}
}
}
Преобразование PDF в обычный текст через Java API
Библиотека Tess4J с открытым исходным кодом предоставляет полную функциональность для загрузки и преобразования PDF-документов в обычный текст внутри приложений Java. Tess4J может конвертировать PDF-документы с возможностью поиска в обычный текст, позволяя разработчикам извлекать контент из PDF-файлов и выполнять дальнейший анализ или обработку данных. В следующем примере показано, как разработчики программного обеспечения могут преобразовать существующий PDF-файл в обычный текст внутри приложений Java.
sКак преобразовать существующий PDF-файл в обычный текст?
import net.sourceforge.tess4j.Tesseract;
import net.sourceforge.tess4j.TesseractException;
import org.apache.pdfbox.pdmodel.PDDocument;
import org.apache.pdfbox.text.PDFTextStripper;
import java.io.File;
import java.io.IOException;
public class PDFToTextConverter {
public static void main(String[] args) {
// Path to the PDF file
String filePath = "path/to/your/pdf/file.pdf";
try {
// Load the PDF document
PDDocument document = PDDocument.load(new File(filePath));
// Create an instance of Tesseract OCR engine
Tesseract tesseract = new Tesseract();
// Set the path to the tessdata directory (containing language data)
tesseract.setDatapath("path/to/your/tessdata/directory");
// Iterate over each page of the PDF document
for (int pageIndex = 0; pageIndex < document.getNumberOfPages(); pageIndex++) {
// Extract the text from the current page
PDFTextStripper stripper = new PDFTextStripper();
stripper.setStartPage(pageIndex + 1);
stripper.setEndPage(pageIndex + 1);
String pageText = stripper.getText(document);
// Perform OCR on the extracted text
String ocrText = tesseract.doOCR(pageText);
// Output the OCR result
System.out.println("Page " + (pageIndex + 1) + " OCR Result:");
System.out.println(ocrText);
System.out.println("--------------------------------------");
}
// Close the PDF document
document.close();
} catch (IOException | TesseractException e) {
e.printStackTrace();
}
}
}