Бесплатная библиотека Node.js для извлечения данных из сканированного документа

Ведущая открытая библиотека Node.js для обработки сканированных документов позволяет эффективно загружать, читать, обрабатывать и извлекать текст из сканированных документов в приложениях Node.js.

Что такое DocumentVision?

В современную цифровую эпоху эффективное управление документами имеет решающее значение для организаций любого размера. С ростом объёма документов становится сложно поддерживать их целостность, безопасность и доступность. Здесь на помощь приходит DocumentVision — открытая библиотека. DV — мощная открытая библиотека, разработанная для разработчиков программного обеспечения, которым необходимо работать со сканированными документами. Построенная на Node.js, она использует несколько надёжных технологий, включая Tesseract для оптического распознавания символов (OCR), OpenCV для обработки изображений и ZXing для чтения штрих‑кодов. Эта комбинация позволяет разработчикам создавать приложения, способные эффективно выполнять задачи управления документами.

DocumentVision — это библиотека Node.js, предоставляющая полный набор инструментов для чтения и управления сканированными документами в приложениях Node.js. Она позволяет разработчикам загружать, читать, обновлять, удалять или извлекать текст и изображения из документов, а также выполнять расширенные операции, такие как поиск, фильтрация и сортировка, всего несколькими строками кода. Библиотека спроектирована как гибкая и масштабируемая, подходящая для широкого спектра приложений — от небольших систем управления документами до крупномасштабных корпоративных решений. Для разработчиков она абстрагирует сложность работы с необработанными данными документов и позволяет создавать пользовательские приложения, работающие со сканированными документами, автоматизировать рабочие процессы или извлекать полезную информацию из изображений.

Previous Next

Начало работы с DocumentVision

Для установки DocumentVision вы можете использовать npm, менеджер пакетов для JavaScript. Пожалуйста, выполните следующие команды для успешной установки.

Установить DocumentVision через npm

$ npm install dv  

Установить DocumentVision через GitHub

clone https://github.com/creatale/node-dv.git

Загрузка и манипуляция изображениями через библиотеку Node.js

Открытая библиотека DocumentVision позволяет разработчикам выполнять различные задачи обработки изображений через интеграцию с OpenCV. Она даёт возможность улучшать качество изображений, изменять их размеры или даже предварительно обрабатывать изображение для получения лучших результатов OCR. Разработчики могут загружать, изменять размер, вращать и корректировать изображения, повышая их качество перед обработкой. Вы также можете загружать сканированные документы и изображения и извлекать из них текст в приложениях Node.js. Ниже приведён пример, демонстрирующий, как разработчики могут изменять размер и вращать изображения в приложениях Node.js.

Как изменить размер и повернуть изображение в приложениях Node.js?

const image = new dv.Image('path/to/image.png');
// Resize and rotate the image
image.resize(800, 600).rotate(90).save('path/to/output.png')

Оптическое распознавание символов (OCR) в Node.js

DocumentVision интегрирует движок Tesseract, позволяя пользователям преобразовывать текст из сканированных документов или изображений в редактируемые форматы в приложениях Node.js. Эта функция имеет решающее значение для оцифровки документов, позволяя разработчикам извлекать печатный текст из файлов изображений, таких как PDF или отсканированные JPEG. Приведённый ниже пример кода демонстрирует, как разработчики могут загрузить и извлечь текст из PNG‑изображений в среде Node.js.

Как извлечь текст из PNG‑изображений в приложениях Node.js?

const dv = require('node-dv');
const ocr = new dv.OCR();

ocr.recognize('path/to/image.png', (err, text) => {
    if (err) {
        console.error('OCR Error:', err);
    } else {
        console.log('Extracted Text:', text);
    }
});

Обнаружение и декодирование штрих-кодов в Node.js

Считывание штрих‑кодов — ещё одна важная функция открытой библиотеки DocumentVision, реализованная благодаря интеграции сканера штрих‑кодов ZXing. Эта возможность полезна для управления документами, содержащими штрих‑коды, такими как транспортные этикетки, счета‑фактуры или листы с информацией о продуктах. Ниже приведён простой пример, показывающий, как разработчики могут загрузить изображение штрих‑кода и декодировать его в приложениях Node.js.

Как загрузить и декодировать изображения штрих‑кодов в приложениях Node.js?

const barcode = new dv.Barcode();
barcode.decode('path/to/barcode.png', (err, result) => {
    if (err) {
        console.error('Barcode Error:', err);
    } else {
        console.log('Decoded Barcode:', result);
    }
}); 

Настраиваемый рабочий процесс

DocumentVision предоставляет надёжную и гибкую платформу для разработчиков, позволяя создавать пользовательские приложения, работающие со сканированными документами. Библиотека допускает настройку, позволяя разработчикам адаптировать процесс обработки под свои конкретные требования. Такая гибкость может привести к более эффективным рабочим процессам, адаптированным к определённым сценариям использования.

 Русский