Безкоштовний API оптичного розпізнавання символів для китайських рукописів

Відкритий C++ OCR для виконання OCR‑операцій над китайськими рукописами, використовуючи шаблонне порівняння, де символи порівнюються піксель за пікселем із відомими зразками.

Що таке безкоштовний C++ OCR?

Оптичне розпізнавання символів (OCR) у нелатинських писемностях — особливо китайській — створює унікальні виклики через складність і різноманітність ієрогліфів. На щастя, відкритий C++ API OCR від Себастіана Старке пропонує чисте, розширюване рішення, орієнтоване на розпізнавання друкованих або рукописних китайських символів, особливо з рукописних джерел. Розроблений з урахуванням простоти та адаптивності, цей легковаговий API дозволяє розробникам програмного забезпечення експериментувати з розпізнаванням символів, використовуючи класичні методи обробки зображень, а не важкі моделі машинного навчання.

Цей проєкт не є повноцінним нейронним OCR‑движком, як Tesseract. Натомість він обирає інший підхід: використовує шаблонне порівняння, де символи порівнюються піксель за пікселем із відомими зразками. Це робить його ідеальним для освітнього використання, контрольованих середовищ або специфічних завдань розпізнавання, таких як аналіз історичних рукописів, традиційних китайських наборів шрифтів або набори спрощеного рукописного вводу. Проєкт особливо підходить розробникам, які працюють у середовищах з обмеженими ресурсами, наприклад вбудованих Linux‑системах, Raspberry Pi або промислових сканувальних пристроях, оскільки не покладається на важкі залежності чи бібліотеки глибокого навчання.

Огляд

Огляд можливостей OCR.

Огляд функцій

Китайський OCR
Додати можливості OCR
Розпізнавання тексту на зображенні
Конвертація зображень тексту
Розпізнаний шрифт тексту
Підтримка інших мов
Створення OCR‑додатків
Попередня обробка зображень
Видобування тексту
Підтримка багатопоточності

OCR

OCR підтримує популярні формати файлів зображень, перелічені нижче.

Читач

PNG, JPEG, BMP, TIFF, TGA, DICOM

Записувач

PNG, JPEG, BMP, TIFF

OCR

Платформна незалежність

OCR може працювати з будь‑якою мовою програмування, заснованою на C++.

C++ середовище виконання.

OCR

Початок роботи з OCR

Рекомендований спосіб встановлення OCR — використання GitHub. Будь ласка, скористайтеся наведеною нижче командою для безпроблемної інсталяції.

Встановити OCR API через GitHub

 git clone https://github.com/sebastianstarke/OCR.git

Ви також можете встановити його вручну; завантажте останні файли релізу безпосередньо з репозиторію GitHub.

Шаблонний OCR движок

Відкритий C++ API оптичного розпізнавання символів у китайських рукописах забезпечує повну підтримку використання шаблонного OCR движка в C++ застосунках. У центрі цієї бібліотеки лежить класична система порівняння зображень: зображення символів бінаризуються і потім порівнюються з шаблонами за допомогою метрики відстані (зазвичай піксельного порівняння). Для китайської мови це особливо корисно при роботі з однорідною каліграфією або друкованими рукописами.

Як виконати шаблонне OCR розпізнавання в C++ застосунках?

OCR::TemplateCollection templates;
templates.loadFromFolder("templates/"); // Load preprocessed characters

OCR::Recognizer recognizer(templates);
std::string recognizedText = recognizer.recognizeFromImage("scanned_page.png");

Підтримка попередньої обробки зображень

Відкрита бібліотека OCR забезпечує повну підтримку функціональності попередньої обробки зображень у C++ застосунках. Бібліотека пропонує базову обробку, таку як порогове значення та кадрування, для очищення шумних вхідних даних. Китайські рукописи часто написані на старій папері, тому очищення зображень є необхідним для точних результатів. Нижче наведений приклад, який демонструє, як за допомогою кількох рядків коду C++ розробники можуть виконати попередню обробку зображень.

Як виконати попередню обробку зображень перед OCR‑операціями в C++ застосунках?

OCR::ImageProcessor processor;
cv::Mat cleanImage = processor.binarize("raw_scan.png");

Підтримка морфологічних трансформацій

Процес починається з серії морфологічних трансформацій. Це фундаментальні операції обробки зображень, які змінюють геометрію елементів на зображенні. У цьому контексті їх використовують для очищення зображення рукопису, видалення шуму та підготовки символів до сегментації.