Бібліотека Java з відкритим кодом для оптичного розпізнавання тексту та обробки зображень
Провідна безкоштовна бібліотека Java, яка дозволяє розробникам програмного забезпечення додавати можливості оптичного розпізнавання символів до програм Java і виконувати оптичне розпізнавання тексту на відсканованих зображеннях і PDF-файлах, щоб легко витягувати з них текст.
Asprise OCR SDK для Java — це потужний Java SDK із відкритим кодом, який надає можливість виконувати оптичне розпізнавання символів (OCR) на відсканованих зображеннях, PDF-файлах та інших документах. Завдяки простому у використанні Java API, цей SDK може допомогти розробникам швидко та легко додати можливості OCR до своїх програм Java. OCR — це дуже корисна технологія, яка дозволяє комп’ютерам розпізнавати текст на зображеннях або документах. Програмне забезпечення OCR можна використовувати для перетворення сканованих зображень тексту в цифровий текст, який можна редагувати, шукати або обробляти на комп’ютері.
Пакет SDK Asprise OCR містить кілька важливих функцій для обробки дій, пов’язаних з оптичним розпізнаванням символів, як-от швидка обробка OCR, підтримка кількох мов, можливість покращення зображення, розпізнавання тексту в різних форматах тощо. SDK базується на передовій технології OCR, яка може розпізнавати текст у широкому спектрі шрифтів і мов. Бібліотеку можна використовувати для розробки додатків для аплетів Java, веб-додатків, компонентів Swing/JavaFX і корпоративних додатків JEE.
Asprise OCR SDK дозволяє розробникам програмного забезпечення виводити розпізнаний текст у різноманітних форматах, включаючи простий текст, PDF із можливістю пошуку та Microsoft Word. SDK може розпізнавати текст понад 100 мовами, включаючи англійську, китайську, японську, арабську та багато інших. Завдяки вдосконаленій технології оптичного розпізнавання символів, комплексній підтримці мов і простому у використанні API, цей SDK може допомогти розробникам заощадити час і зусилля під час створення додатків OCR.
Початок роботи з Asprise OCR SDK для Java
Початок роботи з Asprise OCR SDK для Java Рекомендований спосіб встановлення Asprise OCR SDK для Java – використання Maven. Будь ласка, використовуйте наступну команду для плавного встановлення.
Залежність Maven для Asprise OCR SDK для Java
<dependencies>
<dependency>
<groupId>com.asprise.ocr</groupId>
<artifactId>java-ocr-api;/artifactId>
<version>[15,)</version>
</dependency>
</dependencies>
Установіть Asprise OCR SDK для Java через GitHub
git clone https://github.com/Asprise/java-.net-ocr-api-library
Видобути текст у форматі звичайного тексту за допомогою Java
Asprise OCR SDK для Java надає повну функціональність для вилучення тексту із зображень у форматі звичайного тексту. Бібліотека дозволяє користувачам легко отримувати текстовий вміст відсканованих документів або зображень і використовувати його для подальшої обробки чи аналізу. Щоб виконати завдання вилучення звичайного тексту, спочатку потрібно завантажити зображення з файлу, вхідного потоку чи URL-адреси та застосувати розпізнавання OCR до завантаженого зображення за допомогою API. Використовуйте відповідну функцію, щоб отримати розпізнаний текст у форматі звичайного тексту. Нижче показано, як завантажити зображення та розпізнаний текст як простий текст, а результат друкується на консолі.
Завантаження зображення та розпізнаного тексту через Java API
import com.asprise.ocr.Ocr;
public class OCRTest {
public static void main(String[] args) throws Exception {
// Load image from file
Ocr ocr = new Ocr();
ocr.startEngine("eng", Ocr.SPEED_FASTEST);
String recognizedText = ocr.recognize(new File("image.png"), Ocr.RECOGNIZE_TYPE_TEXT, Ocr.OUTPUT_FORMAT_PLAINTEXT);
// Print the plain text output
System.out.println("Recognized Text: " + recognizedText);
ocr.stopEngine();
}
}
Виконання різноманітних операцій OCR у програмах Java
Aprise OCR SDK для Java API дозволяє розробникам програмного забезпечення виконувати різноманітні операції OCR (оптичне розпізнавання символів) на різних типах документів. Бібліотека повністю підтримує різні типи операцій оптичного розпізнавання символів, такі як OCR файли зображень, OCR файли PDF, OCR рукописного тексту, OCR кількома мовами, виконання OCR на частині зображення, виконання OCR на кількох вхідних файлах за один кадр, виконання OCR на певної сторінки з указаного файлу TIFF, OCR Batch Processing та багато іншого. Бібліотека надає потужний і гнучкий інструмент для виконання операцій OCR над різними типами документів. Завдяки підтримці кількох мов, файлів зображень і PDF, рукописного тексту та пакетної обробки ви можете швидко й точно витягувати текст із своїх документів.
Виконання OCR для кількох файлів за допомогою бібліотеки Java
String s = ocr.recognize("test.png;test2.jpg", -1, 0, 0, 400, 200,
Ocr.RECOGNIZE_TYPE_TEXT, Ocr.OUTPUT_FORMAT_PLAINTEXT);
perform OCR on a PDF input file:
String s = ocr.recognize("test.pdf", -1, 100, 100, 400, 200,
Ocr.RECOGNIZE_TYPE_TEXT, Ocr.OUTPUT_FORMAT_PLAINTEXT);
Підтримка багатопотокової обробки за допомогою Asprise OCR
Пакет Asprise OCR SDK для Java API включає повну підтримку багатопоточності, що дозволяє розробникам обробляти кілька завдань OCR одночасно. Ця функція дозволяє розробникам покращити продуктивність своїх додатків OCR, розподіляючи обробку OCR між кількома потоками, які можуть працювати одночасно на кількох ядрах або процесорах. Багатопотокова підтримка легко настроюється, дозволяючи розробникам точно налаштовувати кількість потоків і OCR механізмів відповідно до доступних ресурсів і вимог до обробки. В основному підтримка багатопоточності Asprise OCR SDK для Java надає розробникам потужний і гнучкий інструмент для створення високопродуктивних програм OCR, які можуть швидко й ефективно обробляти великі обсяги тексту.
Написання хитрого коду керування потоком
OcrExecutorService oes =
new OcrExecutorService("eng", Ocr.SPEED_FASTEST, 4); // 4 threads
List> futures = oes.invokeAll(Arrays.asList(
new OcrExecutorService.OcrCallable(
new File[] {new File("test1.png")},
Ocr.RECOGNIZE_TYPE_ALL, Ocr.OUTPUT_FORMAT_XML),
new OcrExecutorService.OcrCallable(
new File[] {new File("test2.png")},
Ocr.RECOGNIZE_TYPE_ALL, Ocr.OUTPUT_FORMAT_XML)
);
System.out.println("Result of test1.png: " + futures.get(0).get());
System.out.println("Result of test2.png: " + futures.get(1).get());
oes.shutdown(); // stops all OCR engines and disposes all threads