API Node.js miễn phí để Thêm khả năng OCR vào các dự án JS.
Thư viện OCR Node.js mã nguồn mở cho phép lập trình viên nhận dạng & trích xuất văn bản từ nhiều định dạng tệp, bao gồm Hình ảnh (JPEG, PNG), PDF và Tài liệu miễn phí đa ngôn ngữ.
Node-Tesseract-OCR là gì?
Trong thời đại số hiện nay, việc trích xuất văn bản từ hình ảnh và tài liệu đã trở thành một nhiệm vụ quan trọng trong nhiều ngành công nghiệp, bao gồm quản lý tài liệu, xử lý dữ liệu và trí tuệ nhân tạo. Công nghệ Nhận dạng Ký tự Quang học (OCR) đã cho phép chuyển đổi các tài liệu quét, hình ảnh và PDF thành các định dạng văn bản có thể chỉnh sửa. Node-Tesseract-OCR là một API mã nguồn mở tích hợp sức mạnh của engine Tesseract OCR để cung cấp một cách tiếp cận liền mạch và hiệu quả cho các tác vụ OCR trong các ứng dụng Node.js.
Node-Tesseract-OCR là một wrapper Node.js cho engine Tesseract OCR, cho phép các nhà phát triển phần mềm sử dụng các tính năng nhận dạng văn bản mạnh mẽ của Tesseract trong môi trường Node.js. API này được duy trì tại kho GitHub này và cung cấp một loạt các chức năng phù hợp với nhiều trường hợp sử dụng, từ việc trích xuất văn bản đơn giản đến các tác vụ xử lý tài liệu phức tạp hơn. Các nhà phát triển có thể trích xuất văn bản từ hình ảnh và tài liệu bằng nhiều ngôn ngữ, làm cho nó trở thành một công cụ đa năng cho nhiều ứng dụng.
API Node-Tesseract-OCR cung cấp các khả năng xử lý hình ảnh nâng cao, bao gồm lọc ảnh, thay đổi kích thước và cắt ảnh, để đảm bảo văn bản được trích xuất chính xác và đáng tin cậy. Nó hỗ trợ hơn 100 ngôn ngữ, trở thành một giải pháp linh hoạt cho các nhiệm vụ OCR trong môi trường đa dạng. Các nhà phát triển có thể trích xuất văn bản từ hình ảnh, PDF và tài liệu, và trả về văn bản đã trích xuất dưới nhiều định dạng như JSON, XML và plain text. API được thiết kế nhẹ, linh hoạt và dễ sử dụng, là lựa chọn lý tưởng cho những người muốn thêm khả năng OCR vào dự án của mình. Với các khả năng xử lý hình ảnh tiên tiến, hỗ trợ ngôn ngữ và cơ chế xử lý lỗi, nó là lựa chọn tối ưu cho các nhà phát triển.
Bắt đầu với Node-Tesseract-OCR
Cách khuyến nghị để cài đặt Node-Tesseract-OCR là sử dụng npm. Vui lòng sử dụng lệnh sau để cài đặt suôn sẻ
Cài đặt Node-Tesseract-OCR qua npm
npm install node-tesseract-ocr Bạn có thể cũng cài đặt nó thủ công; tải các tệp phát hành mới nhất trực tiếp từ GitHub repository.
Trích xuất Văn bản từ Hình ảnh trong API Node.js
Thư viện Node-Tesseract-OCR mã nguồn mở giúp các nhà phát triển phần mềm dễ dàng tạo các ứng dụng tự động trích xuất văn bản từ hình ảnh trong các ứng dụng Node.js. Nó hỗ trợ trích xuất văn bản từ tài liệu quét, PDF, ảnh chụp từ camera hoặc ảnh biên lai. Điều này có thể hữu ích cho việc tạo kho lưu trữ có thể tìm kiếm, tự động nhập dữ liệu, hoặc xử lý khối lượng lớn tài liệu trong các lĩnh vực như tài chính và y tế. Dưới đây là một ví dụ đơn giản cho thấy cách trích xuất văn bản từ hình ảnh trong các ứng dụng Node.js.
Cách trích xuất Văn bản từ Hình ảnh trong môi trường Node.js?
const tesseract = require("node-tesseract-ocr");
tesseract.recognize("path/to/image.jpg")
.then(text => {
console.log("Recognized Text:", text);
})
.catch(error => {
console.error("Error:", error.message);
});
Tiền xử lý Hình ảnh tốt hơn trong Node.js
Tiền xử lý hình ảnh trước khi áp dụng OCR có thể cải thiện đáng kể độ chính xác của việc nhận dạng văn bản. Thư viện Node-Tesseract-OCR mã nguồn mở cho phép các kỹ thuật tiền xử lý cơ bản, như thay đổi kích thước, nhị phân hoá và chỉnh nghiêng. Các bước tiền xử lý này có thể được thực hiện bằng các thư viện Node.js bổ sung như sharp hoặc jimp kết hợp với Node-Tesseract-OCR. Ví dụ dưới đây cho thấy cách các nhà phát triển sử dụng các bước tiền xử lý để cải thiện nhận dạng, đặc biệt với các hình ảnh chất lượng thấp.
Cách áp dụng các bước Tiền xử lý để Cải thiện Nhận dạng qua API Node.js?
const sharp = require("sharp");
const tesseract = require("node-tesseract-ocr");
sharp("path/to/input.jpg")
.resize(800, 600) // Resize the image
.greyscale() // Convert to greyscale
.toBuffer()
.then(data => {
return tesseract.recognize(data, { lang: "eng" });
})
.then(text => {
console.log("Preprocessed Image Text:", text);
})
.catch(error => {
console.error("Error:", error.message);
});
Văn bản Nhận dạng đa Ngôn ngữ
Một trong những tính năng nổi bật của Node-Tesseract-OCR là hỗ trợ đa ngôn ngữ rộng rãi. Thư viện Tesseract OCR hỗ trợ hơn 100 ngôn ngữ, làm cho nó trở thành lựa chọn lý tưởng cho các ứng dụng cần xử lý tài liệu bằng nhiều ngôn ngữ. Các nhà phát triển có thể chỉ định ngôn ngữ mà họ muốn Tesseract sử dụng, cải thiện độ chính xác nhận dạng cho các văn bản không phải tiếng Anh. Dưới đây là một ví dụ cho thấy cách các nhà phát triển có thể nhận dạng văn bản bằng tiếng Pháp trong các ứng dụng Node.js?
Cách nhận dạng Văn bản từ Hình ảnh bằng tiếng Pháp qua API JavaScript?
const config = {
lang: "fra", // French language support
oem: 1,
psm: 3
};
tesseract.recognize("path/to/french-text-image.jpg", config)
.then(text => {
console.log("Recognized Text in French:", text);
})
.catch(error => {
console.error("Error:", error.message);
});