Bezmaksas Node.js bibliotēka datu izvilkšanai no skenēta dokumenta

Vadoša atvērtā koda Node.js bibliotēka skenēto dokumentu apstrādei ļauj efektīvi ielādēt, lasīt, apstrādāt un izvilkt tekstu no skenētiem dokumentiem Node.js lietojumprogrammās.

Kas ir DocumentVision?

Mūsdienu digitālajā laikmetā efektīva dokumentu pārvaldība ir svarīga visām organizācijām neatkarīgi no to lieluma. Ar pieaugošo dokumentu apjomu var būt grūti uzturēt to integritāti, drošību un pieejamību. Šeit palīdz palīdz DocumentVision – atvērtā koda bibliotēka. DV ir spēcīga atvērtā koda bibliotēka, kas paredzēta programmatūras izstrādātājiem, kuriem jāstrādā ar skenētiem dokumentiem. Izveidota uz Node.js, tā izmanto vairākas stabilas tehnoloģijas, tostarp Tesseract optiskās rakstzīmju atpazīšanai (OCR), OpenCV attēlu apstrādei un ZXing svītru koda nolasīšanai. Šī kombinācija ļauj programmatūras izstrādātājiem izveidot lietojumprogrammas, kas var efektīvi pārvaldīt dokumentu pārvaldības uzdevumus.

DocumentVision ir Node.js bibliotēka, kas nodrošina plašu rīku komplektu skenētu dokumentu lasīšanai un pārvaldībai Node.js lietojumprogrammās. Tā ļauj izstrādātājiem ielādēt, lasīt, atjaunināt, izdzēst vai izvilkt tekstu vai attēlus no dokumentiem, kā arī veikt uzlabotas operācijas, piemēram, meklēšanu, filtrēšanu un kārtošanu, izmantojot tikai dažas koda rindas. Bibliotēka ir izstrādāta, lai būtu elastīga un mērogojama, padarot to piemērotu dažādiem lietojumiem – no mazapjoma dokumentu pārvaldības sistēmām līdz lielapjoma uzņēmuma risinājumiem. Programmatūras izstrādātājiem tā vienkāršo sarežģītā datu apstrādes darbību, ļaujot izveidot pielāgotas lietojumprogrammas, kas apstrādā skenētus dokumentus, automatizē darba plūsmas vai izvelk vērtīgu informāciju no attēliem.

Ātrs pārskats

DocumentVision funkciju pārskats.

Features Overview

Izvilkt tekstu no Docx
Izvilkt tekstu no Word
Izvilkt tabulas
Apstrādāt kājenes
Analizēt Word Docx
Lasīt saites
Izvilkt attēlus
Rindu pārtraukumi
Kopienas atbalsts
Izvilkt specifiskas daļas

DocumentVision

DocumentVision atbalsta šādus formātus.

Reader

DOCX

Writer

HTML

DocumentVision

Platformas neatkarība

DocumentVision ir vajadzīgs tikai Java izpildlaiks.

JavaScript

DocumentVision

Sākt darbu ar DocumentVision

Lai instalētu DocumentVision, varat izmantot npm – JavaScript pakotņu pārvaldnieku. Lūdzu, izmantojiet šīs komandas veiksmīgai instalācijai.

Instalēt DocumentVision, izmantojot npm

$ npm install dv

Instalēt DocumentVision, izmantojot GitHub

clone https://github.com/creatale/node-dv.git

Attēlu ielāde un manipulācija, izmantojot Node.js bibliotēku

Atvērtā koda DocumentVision bibliotēka ļauj programmatūras izstrādātājiem veikt dažādus attēlu apstrādes uzdevumus, izmantojot tās integrāciju ar OpenCV. Tā ļauj uzlabot attēlu kvalitāti, mainīt izmērus vai pat iepriekš apstrādāt attēlu, lai iegūtu labākus OCR rezultātus. Programmatūras izstrādātāji var ielādēt, mainīt izmērus, pagriezt un pielāgot attēlus, lai uzlabotu to kvalitāti pirms apstrādes. Jūs varat arī ielādēt skenētus dokumentus kā attēlus un izvilkt no tiem tekstu Node.js lietojumprogrammās. Šeit ir piemērs, kas parāda, kā programmatūras izstrādātāji var mainīt attēla izmēru un pagriezt to Node.js lietojumprogrammās.

Kā mainīt attēla izmēru un pagriezt to Node.js lietojumprogrammās?

const image = new dv.Image('path/to/image.png');
// Resize and rotate the image
image.resize(800, 600).rotate(90).save('path/to/output.png')

Optiskā rakstzīmju atpazīšana (OCR) Node.js

DocumentVision integrē Tesseract dzini, ļaujot lietotājiem konvertēt tekstu no skenētiem dokumentiem vai attēliem rediģējamā formātā Node.js lietojumprogrammās. Šī funkcija ir būtiska dokumentu digitalizēšanai, ļaujot programmatūras izstrādātājiem izvilkt drukātu tekstu no attēlu failiem, piemēram, PDF vai skenētiem JPEG. Turpmākajā kodēšanas piemērā parādīts, kā izstrādātāji var ielādēt un izvilkt tekstu no PNG attēliem Node.js vidē.

Kā izvilkt tekstu no PNG attēliem Node.js lietojumprogrammās?

const dv = require('node-dv');
const ocr = new dv.OCR();

ocr.recognize('path/to/image.png', (err, text) => {
    if (err) {
        console.error('OCR Error:', err);
    } else {
        console.log('Extracted Text:', text);
    }
});

Svītru koda noteikšana un dekodēšana Node.js

Svītru koda nolasīšana ir vēl viena būtiska atvērtā koda DocumentVision bibliotēkas funkcija, kas ir iespējota, integrējot ZXing svītru koda skeneri. Šī funkcionalitāte ir noderīga, pārvaldot dokumentus, kas satur svītru kodus, piemēram, piegādes etiķetes, rēķinus vai produkta informācijas lapas. Šeit ir vienkāršs piemērs, kas parāda, kā programmatūras izstrādātāji var ielādēt svītru koda attēlu un to dekodēt Node.js lietojumprogrammās.

Kā ielādēt un dekodēt svītru koda attēlus Node.js lietojumprogrammās?

const barcode = new dv.Barcode();
barcode.decode('path/to/barcode.png', (err, result) => {
    if (err) {
        console.error('Barcode Error:', err);
    } else {
        console.log('Decoded Barcode:', result);
    }
});

Pielāgojams darba plūsma

DocumentVision piedāvā stabilu un elastīgu platformu izstrādātājiem, kas ļauj izveidot pielāgotas lietojumprogrammas, kas strādā ar skenētiem dokumentiem. Bibliotēka ļauj pielāgot, ļaujot izstrādātājiem pielāgot apstrādes plūsmu atbilstoši savām prasībām. Šī elastība var novest pie efektīvākām darba plūsmām, pielāgotām konkrētām lietošanas situācijām.