Безплатна Node.js библиотека за извличане на данни от сканиран документ
Водеща отворена (Open Source) Node.js библиотека за обработка на сканирани документи, позволяваща ефективно зареждане, четене, обработка и извличане на текст от сканирани документи в Node.js приложения.
Какво е DocumentVision?
В днешната дигитална ера управлението на документи ефективно е от съществено значение за организации от всякакъв размер. С нарастващия обем документи е предизвикателство да се запази тяхната цялост, сигурност и достъпност. Тук на помощ идва DocumentVision, отворена (open-source) библиотека. DV е мощна отворена библиотека, създадена за софтуерните разработчици, които трябва да работят със сканирани документи. Създадена върху Node.js, тя използва няколко стабилни технологии, включително Tesseract за оптично разпознаване на символи (OCR), OpenCV за обработка на изображения и ZXing за четене на баркодове. Тази комбинация позволява на софтуерните разработчици да създават приложения, които ефективно справят се със задачи за управление на документи.
Инструментът DocumentVision е създаден за зареждане и парсиране на Microsoft Word файлове с цел извличане на текст в Node.js среда. Това е удобен инструмент за софтуерни разработчици, работещи върху задачи като манипулиране на текстови данни, управление на съдържание, миграция на данни и индексиране на документи. С мощна поддръжка за обработка на грешки, инструментът плавно управлява всички проблеми, които могат да възникнат по време на извличане на текста, улеснявайки работата по проектите без прекъсвания и изграждане на надеждни приложения.
Започване с DocumentVision
За да инсталирате DocumentVision, можете да използвате npm, мениджъра на пакети за JavaScript. Моля, използвайте следните команди за успешна инсталация.
Инсталирайте DocumentVision чрез npm
$ npm install dv Инсталирайте DocumentVision чрез GitHub
clone https://github.com/creatale/node-dv.gitЗареждане и манипулиране на изображения чрез Node.js библиотека
Отворената (open source) библиотека DocumentVision позволява на софтуерните разработчици да изпълняват различни задачи за обработка на изображения чрез интеграцията си с OpenCV. Тя позволява на разработчиците да подобряват качеството на изображението, да регулират размерите, или дори да предварително обработват изображението за по‑добри OCR резултати. Софтуерните разработчици могат да зареждат, променят размера, завъртят и регулират изображенията, за да подобрят качеството им преди обработка. Можете също да зареждате сканирани документи както и изображения и да извличате текст от тях в Node.js приложения. Ето пример, който показва как софтуерните разработчици могат да променят размера и завъртат изображения в Node.js приложения.
Как да промените размера и завъртите изображението в Node.js приложения?
const image = new dv.Image('path/to/image.png');
// Resize and rotate the image
image.resize(800, 600).rotate(90).save('path/to/output.png')
Оптично разпознаване на символи (OCR) в Node.js
DocumentVision интегрира Tesseract двигател, позволяващ на потребителите да конвертират текст от сканирани документи или изображения в редактиращи се формати в Node.js приложения. Тази функция е от съществено значение за дигитализация на документи, осигурявайки на софтуерните разработчици извличане на печатен текст от файлове с изображения като PDF или сканирани JPEG. Следният пример с код показва как разработчиците могат да зареждат и извличат текст от PNG изображения в Node.js среда.
Как да извлечете текст от PNG изображения в Node.js приложения?
const dv = require('node-dv');
const ocr = new dv.OCR();
ocr.recognize('path/to/image.png', (err, text) => {
if (err) {
console.error('OCR Error:', err);
} else {
console.log('Extracted Text:', text);
}
});
Откриване и декодиране на баркодове в Node.js
Четенето на баркодове е друга ключова функция на отворената (open source) библиотека DocumentVision, осъществена чрез интегриране на скенера за баркодове ZXing. Тази функционалност е полезна за управление на документи, съдържащи баркодове, като транспортни етикети, фактури или листове с информация за продукти. Ето прост пример, който показва как софтуерните разработчици могат да заредят изображение с баркод и да го декодират в Node.js приложения.
Как да заредите и декодирате баркод изображения в Node.js приложения?
const barcode = new dv.Barcode();
barcode.decode('path/to/barcode.png', (err, result) => {
if (err) {
console.error('Barcode Error:', err);
} else {
console.log('Decoded Barcode:', result);
}
});
Персонализируем работен процес
DocumentVision предлага стабилна и гъвкава платформа за разработчици да създават персонализирани приложения, които работят със сканирани документи. Библиотеката позволява персонализиране, давайки възможност на разработчиците да адаптират процесната верига според специфичните им изисквания. Тази гъвкавост може да доведе до по‑ефективни работни процеси, съобразени с конкретни случаи на употреба.