Java-библиотека с открытым исходным кодом для обработки текста и изображений OCR
Ведущая бесплатная библиотека Java, которая позволяет разработчикам программного обеспечения добавлять возможности оптического распознавания в приложения Java и выполнять оптическое распознавание отсканированных изображений и файлов PDF для легкого извлечения из них текста.
Asprise OCR SDK для Java — это мощный Java SDK с открытым исходным кодом, обеспечивающий возможность оптического распознавания символов (OCR) на отсканированных изображениях, файлах PDF и других документах. Благодаря простому в использовании API Java этот SDK может помочь разработчикам быстро и легко добавлять возможности оптического распознавания символов в свои приложения Java. OCR — очень полезная технология, которая позволяет компьютерам распознавать текст на изображениях или документах. Программное обеспечение OCR можно использовать для преобразования отсканированных изображений текста в цифровой текст, который можно редактировать, искать или обрабатывать на компьютере.
Asprise OCR SDK включает несколько важных функций для обработки действий, связанных с распознаванием текста, таких как быстрая обработка OCR, поддержка нескольких языков, средство улучшения изображений, распознавание текста в различных форматах и многое другое. SDK основан на передовой технологии оптического распознавания символов, которая позволяет распознавать текст в самых разных шрифтах и языках. Библиотеку можно использовать для разработки приложений для Java-апплетов, веб-приложений, компонентов Swing/JavaFX и корпоративных приложений JEE.
Asprise OCR SDK позволяет разработчикам программного обеспечения выводить распознанный текст в различных форматах, включая обычный текст, PDF с возможностью поиска и Microsoft Word. SDK может распознавать текст на более чем 100 языках, включая английский, китайский, японский, арабский и многие другие. Благодаря передовой технологии OCR, комплексной языковой поддержке и простому в использовании API этот SDK может помочь разработчикам сэкономить время и усилия при создании приложений OCR.
Начало работы с Asprise OCR SDK для Java
Начало работы с Asprise OCR SDK для Java Рекомендуемый способ установки Asprise OCR SDK для Java — использование Maven. Пожалуйста, используйте следующую команду для плавной установки.
Зависимость Maven для Asprise OCR SDK для Java
<dependencies>
<dependency>
<groupId>com.asprise.ocr</groupId>
<artifactId>java-ocr-api;/artifactId>
<version>[15,)</version>
</dependency>
</dependencies>
Установите Asprise OCR SDK для Java через GitHub
git clone https://github.com/Asprise/java-.net-ocr-api-library
Извлечение текста в текстовом формате с помощью Java
Asprise OCR SDK для Java предоставляет полную функциональность для извлечения текста из изображений в текстовом формате. Библиотека позволяет пользователям легко извлекать текстовое содержимое отсканированных документов или изображений и использовать его для дальнейшей обработки или анализа. Чтобы выполнить задачу извлечения простого текста, сначала необходимо загрузить изображение из файла, входного потока или URL-адреса и применить распознавание OCR к загруженному изображению с помощью API. Используйте соответствующую функцию для получения распознанного текста в текстовом формате. Ниже показано, как загрузить изображение и распознанный текст как обычный текст, а результат выводится на консоль.
Загрузка изображения и распознанного текста через Java API
import com.asprise.ocr.Ocr;
public class OCRTest {
public static void main(String[] args) throws Exception {
// Load image from file
Ocr ocr = new Ocr();
ocr.startEngine("eng", Ocr.SPEED_FASTEST);
String recognizedText = ocr.recognize(new File("image.png"), Ocr.RECOGNIZE_TYPE_TEXT, Ocr.OUTPUT_FORMAT_PLAINTEXT);
// Print the plain text output
System.out.println("Recognized Text: " + recognizedText);
ocr.stopEngine();
}
}
Выполнение различных операций оптического распознавания символов в приложениях Java
Asprise OCR SDK для Java API позволяет разработчикам программного обеспечения выполнять различные операции OCR (оптического распознавания символов) над различными типами документов. Библиотека полностью поддерживает различные типы операций OCR, такие как OCR-файлы изображений, OCR PDF-файлы, OCR рукописный текст, OCR нескольких языков, выполнение OCR для части изображения, выполнение OCR для нескольких входных файлов за один раз, выполнение OCR на определенную страницу из указанного файла TIFF, пакетную обработку OCR и многое другое. Библиотека предоставляет мощный и гибкий инструмент для выполнения операций OCR над различными типами документов. Благодаря поддержке нескольких языков, файлов изображений и PDF, рукописного текста и пакетной обработки вы можете быстро и точно извлекать текст из своих документов.
Выполнение оптического распознавания нескольких файлов с помощью библиотеки Java
sString s = ocr.recognize("test.png;test2.jpg", -1, 0, 0, 400, 200,
Ocr.RECOGNIZE_TYPE_TEXT, Ocr.OUTPUT_FORMAT_PLAINTEXT);
perform OCR on a PDF input file:
String s = ocr.recognize("test.pdf", -1, 100, 100, 400, 200,
Ocr.RECOGNIZE_TYPE_TEXT, Ocr.OUTPUT_FORMAT_PLAINTEXT);
Поддержка многопоточности с использованием Asprise OCR
Asprise OCR SDK для Java API включает полную поддержку многопоточности, что позволяет разработчикам обрабатывать несколько задач OCR одновременно. Эта функция позволяет разработчикам повысить производительность своих приложений OCR, распределяя обработку OCR по нескольким потокам, которые могут выполняться одновременно на нескольких ядрах или процессорах. Поддержка многопоточности имеет широкие возможности настройки, что позволяет разработчикам точно настраивать количество потоков и механизмов оптического распознавания символов в соответствии с доступными ресурсами и требованиями к обработке. По сути, Asprise OCR SDK для поддержки многопоточности Java предоставляет разработчикам мощный и гибкий инструмент для создания высокопроизводительных приложений OCR, которые могут быстро и эффективно обрабатывать большие объемы текста.
Написание сложного кода управления потоками
OcrExecutorService oes =
new OcrExecutorService("eng", Ocr.SPEED_FASTEST, 4); // 4 threads
List> futures = oes.invokeAll(Arrays.asList(
new OcrExecutorService.OcrCallable(
new File[] {new File("test1.png")},
Ocr.RECOGNIZE_TYPE_ALL, Ocr.OUTPUT_FORMAT_XML),
new OcrExecutorService.OcrCallable(
new File[] {new File("test2.png")},
Ocr.RECOGNIZE_TYPE_ALL, Ocr.OUTPUT_FORMAT_XML)
);
System.out.println("Result of test1.png: " + futures.get(0).get());
System.out.println("Result of test2.png: " + futures.get(1).get());
oes.shutdown(); // stops all OCR engines and disposes all threads