Thư viện Node.js miễn phí để trích xuất dữ liệu từ tài liệu quét

Thư viện xử lý tài liệu quét Node.js nguồn mở hàng đầu cho phép tải, đọc, xử lý và trích xuất văn bản từ tài liệu quét một cách hiệu quả trong các ứng dụng Node.js.

DocumentVision là gì ?

Trong thời đại kỹ thuật số ngày nay, việc quản lý tài liệu một cách hiệu quả là rất quan trọng đối với các tổ chức ở mọi quy mô. Khi khối lượng tài liệu ngày càng tăng, việc duy trì tính toàn vẹn, bảo mật và khả năng truy cập của chúng trở nên khó khăn. Đó là nơi DocumentVision, một thư viện nguồn mở, trở nên hữu ích. DV là một thư viện nguồn mở mạnh mẽ được thiết kế cho các nhà phát triển phần mềm cần làm việc với tài liệu quét. Được xây dựng trên Node.js, nó tận dụng nhiều công nghệ mạnh mẽ, bao gồm Tesseract cho Nhận dạng ký tự quang học (OCR), OpenCV cho xử lý ảnh, và ZXing cho việc đọc mã vạch. Sự kết hợp này cho phép các nhà phát triển phần mềm tạo ra các ứng dụng có thể xử lý nhiệm vụ quản lý tài liệu một cách hiệu quả.

DocumentVision là một thư viện Node.js cung cấp một bộ công cụ toàn diện để đọc và quản lý tài liệu quét trong các ứng dụng Node.js. Nó cho phép các nhà phát triển tải, đọc, cập nhật, xóa hoặc trích xuất văn bản hoặc hình ảnh từ tài liệu, cũng như thực hiện các hoạt động nâng cao như tìm kiếm, lọc và sắp xếp chỉ với một vài dòng mã. Thư viện được thiết kế linh hoạt và có khả năng mở rộng, phù hợp với nhiều loại ứng dụng, từ hệ thống quản lý tài liệu quy mô nhỏ đến giải pháp doanh nghiệp quy mô lớn. Đối với các nhà phát triển phần mềm, nó trừu tượng hoá độ phức tạp của việc xử lý dữ liệu tài liệu thô và cho phép tạo ra các ứng dụng tùy chỉnh xử lý tài liệu quét, tự động hoá quy trình công việc, hoặc trích xuất thông tin hữu ích từ hình ảnh.

Previous Next

Bắt đầu với DocumentVision

Để cài đặt DocumentVision, bạn có thể sử dụng npm, trình quản lý gói cho JavaScript. Vui lòng sử dụng các lệnh sau để cài đặt thành công.

Cài đặt DocumentVision qua npm

$ npm install dv  

Cài đặt DocumentVision qua GitHub

clone https://github.com/creatale/node-dv.git

Tải và thao tác ảnh qua Thư viện Node.js

Thư viện DocumentVision nguồn mở cho phép các nhà phát triển phần mềm thực hiện các tác vụ xử lý ảnh khác nhau thông qua tích hợp với OpenCV. Nó cho phép các nhà phát triển nâng cao chất lượng ảnh, điều chỉnh kích thước, hoặc thậm chí tiền xử lý ảnh để có kết quả OCR tốt hơn. Các nhà phát triển có thể tải, thay đổi kích thước, xoay và điều chỉnh ảnh để cải thiện chất lượng trước khi xử lý. Bạn cũng có thể tải tài liệu quét cũng như ảnh và trích xuất văn bản từ chúng trong các ứng dụng Node.js. Dưới đây là một ví dụ minh họa cách các nhà phát triển có thể thay đổi kích thước và xoay ảnh trong các ứng dụng Node.js.

Làm thế nào để thay đổi kích thước và xoay ảnh trong các ứng dụng Node.js?

const image = new dv.Image('path/to/image.png');
// Resize and rotate the image
image.resize(800, 600).rotate(90).save('path/to/output.png')

Nhận dạng ký tự quang học (OCR) trong Node.js

DocumentVision tích hợp engine Tesseract, cho phép người dùng chuyển đổi văn bản từ tài liệu quét hoặc ảnh sang các định dạng có thể chỉnh sửa trong các ứng dụng Node.js. Tính năng này rất quan trọng cho việc số hoá tài liệu, cho phép các nhà phát triển phần mềm trích xuất văn bản đã in từ các tệp ảnh như PDF hoặc JPEG đã quét. Ví dụ mã sau đây cho thấy cách các nhà phát triển có thể tải và trích xuất văn bản từ ảnh PNG trong môi trường Node.js.

Làm thế nào để trích xuất văn bản từ ảnh PNG trong các ứng dụng Node.js?

const dv = require('node-dv');
const ocr = new dv.OCR();

ocr.recognize('path/to/image.png', (err, text) => {
    if (err) {
        console.error('OCR Error:', err);
    } else {
        console.log('Extracted Text:', text);
    }
});

Phát hiện và giải mã mã vạch trong Node.js

Đọc mã vạch là một tính năng quan trọng khác của thư viện DocumentVision nguồn mở, được hiện thực hoá nhờ tích hợp bộ đọc mã vạch ZXing. Chức năng này hữu ích cho việc quản lý các tài liệu có chứa mã vạch, chẳng hạn như nhãn vận chuyển, hóa đơn hoặc tờ thông tin sản phẩm. Dưới đây là một ví dụ đơn giản minh họa cách các nhà phát triển phần mềm có thể tải ảnh mã vạch và giải mã nó trong các ứng dụng Node.js.

Làm thế nào để tải và giải mã ảnh mã vạch trong các ứng dụng Node.js?

const barcode = new dv.Barcode();
barcode.decode('path/to/barcode.png', (err, result) => {
    if (err) {
        console.error('Barcode Error:', err);
    } else {
        console.log('Decoded Barcode:', result);
    }
}); 

Quy trình làm việc tùy chỉnh

DocumentVision cung cấp một nền tảng mạnh mẽ và linh hoạt cho các nhà phát triển xây dựng ứng dụng tùy chỉnh xử lý tài liệu quét. Thư viện cho phép tùy chỉnh, giúp các nhà phát triển điều chỉnh quy trình xử lý để đáp ứng yêu cầu cụ thể. Sự linh hoạt này có thể mang lại quy trình làm việc hiệu quả hơn, phù hợp với các trường hợp sử dụng cụ thể.

 Tiếng Việt