Безплатна Java библиотека за OCR извличане на текст и анализ на документи
Java OCR библиотека с отворен код за включване на възможности за OCR в Java приложения и позволява извличане на текст от изображения, както и от сканирани документи.
В днешната цифрова ера оптичното разпознаване на символи (OCR) се превърна в основен инструмент за извличане на текст от изображения и сканирани документи. OCR технологията позволява преобразуването на печатен или ръкописен текст в машинночетими данни, отваряйки многобройни възможности за анализ на документи, извличане на данни и автоматизация. Сред многото налични OCR решения, Tess4J се откроява като мощна библиотека с отворен код, която съчетава гъвкавостта на Tesseract OCR двигателя с простотата на програмирането на Java.
Библиотеката Tess4J дава възможност на разработчиците на Java да включат безпроблемно възможностите за OCR в своите приложения. Това е Java обвивка за Tesseract, OCR машина, първоначално разработена от Hewlett-Packard и понастоящем поддържана от Google. Tess4J използва OCR двигателя на Tesseract, известен със своята точност. Той използва усъвършенствани алгоритми и техники за машинно обучение, за да постигне надеждно извличане на текст от изображения, като гарантира висококачествени резултати. Позволява OCR интегриране в Java приложения, което го прави съвместим с различни платформи, включително Windows, Linux и macOS.
Tess4J предоставя ясен и добре документиран API, което улеснява разработчиците да интегрират OCR възможности в своите Java приложения. Tess4J е многофункционална и стабилна библиотека с отворен код, която дава възможност на разработчиците да интегрират мощни OCR възможности в своите Java приложения. Със своята поддръжка за множество езици, функции за предварителна обработка на изображения, възможности за преобразуване на PDF и система за оценка на доверието, Tess4J предоставя ефективно и надеждно решение за извличане на текст и анализ на документи.
Първи стъпки с Tess4J
Препоръчителният начин за инсталиране на Tess4J е използването на Maven. Моля, използвайте следната команда за гладка инсталация.
Зависимост на Maven за Tess4J
<dependencies>
<dependency>
<groupId>net.sourceforge.tess4j</groupId>
<artifactId>tess4j;/artifactId>
<version>X.X.X</version>
</dependency>
</dependencies>
Инсталирайте Tess4J чрез GitHub
git clone https://github.com/nguyenq/tess4j.git
Можете също да го инсталирате ръчно; изтеглете файловете с най-новата версия директно от хранилището на GitHub.
Извличане на съдържание чрез Java API
Библиотеката Tess4J с отворен код позволява на разработчиците на софтуер да извличат текст от различни типове изображения в Java приложения. Библиотеката позволява извличане на текст от изображения, позволявайки на приложенията да анализират и обработват текстовото съдържание. Тази способност намира приложения в области като анализ на настроението, обобщаване на текст и извличане на информация. Библиотеката също така улеснява зареждането на Tesseract OCR двигателя, извършването на извличане на съдържание върху определеното изображение и отпечатването на извлечения текст в конзолата.
Извършване на извличане на съдържание с помощта на Java OCR библиотека
import net.sourceforge.tess4j.Tesseract;
import net.sourceforge.tess4j.TesseractException;
public class ContentExtractionExample {
public static void main(String[] args) {
// Path to the Tesseract OCR installation directory
String tessDataPath = "path/to/tesseract";
// Initialize Tesseract instance
Tesseract tesseract = new Tesseract();
tesseract.setDatapath(tessDataPath);
try {
// Set the language for OCR (e.g., "eng" for English)
tesseract.setLanguage("eng");
// Path to the image file for content extraction
String imagePath = "path/to/image.jpg";
// Perform content extraction
String extractedText = tesseract.doOCR(new File(imagePath));
System.out.println(extractedText);
} catch (TesseractException e) {
e.printStackTrace();
}
}
}
Преобразуване на PDF в обикновен текст чрез Java API
Библиотеката Tess4J с отворен код предоставя пълна функционалност за зареждане и конвертиране на PDF документи в обикновен текст в Java приложения. Tess4J може да конвертира PDF документи с възможност за търсене в обикновен текст, което позволява на разработчиците да извличат съдържание от PDF файлове и да извършват допълнителен анализ или обработка на данни. Следващият пример показва как разработчиците на софтуер могат да конвертират съществуващ PDF файл в обикновен текст в Java приложения.
Как да конвертирате съществуващ PDF файл в обикновен текст?
import net.sourceforge.tess4j.Tesseract;
import net.sourceforge.tess4j.TesseractException;
import org.apache.pdfbox.pdmodel.PDDocument;
import org.apache.pdfbox.text.PDFTextStripper;
import java.io.File;
import java.io.IOException;
public class PDFToTextConverter {
public static void main(String[] args) {
// Path to the PDF file
String filePath = "path/to/your/pdf/file.pdf";
try {
// Load the PDF document
PDDocument document = PDDocument.load(new File(filePath));
// Create an instance of Tesseract OCR engine
Tesseract tesseract = new Tesseract();
// Set the path to the tessdata directory (containing language data)
tesseract.setDatapath("path/to/your/tessdata/directory");
// Iterate over each page of the PDF document
for (int pageIndex = 0; pageIndex < document.getNumberOfPages(); pageIndex++) {
// Extract the text from the current page
PDFTextStripper stripper = new PDFTextStripper();
stripper.setStartPage(pageIndex + 1);
stripper.setEndPage(pageIndex + 1);
String pageText = stripper.getText(document);
// Perform OCR on the extracted text
String ocrText = tesseract.doOCR(pageText);
// Output the OCR result
System.out.println("Page " + (pageIndex + 1) + " OCR Result:");
System.out.println(ocrText);
System.out.println("--------------------------------------");
}
// Close the PDF document
document.close();
} catch (IOException | TesseractException e) {
e.printStackTrace();
}
}
}