Node.js 免费库，用于从扫描文档中提取数据

领先的开源 Node.js 扫描文档处理库，能够在 Node.js 应用中高效加载、读取、处理并提取扫描文档中的文本。

DocumentVision 是什么？

在当今数字化时代，高效管理文档对各种规模的组织至关重要。随着文档数量的增加，保持文档的完整性、安全性和可访问性变得具有挑战性。这时，开源库 DocumentVision 应运而生。DV 是一个为需要处理扫描文档的软件开发者设计的强大开源库。它基于 Node.js，利用多项强大的技术，包括用于光学字符识别（OCR）的 Tesseract、用于图像处理的 OpenCV，以及用于条码读取的 ZXing。这些组合使软件开发者能够创建能够高效处理文档管理任务的应用程序。

DocumentVision 是一个 Node.js 库，提供一套完整的工具，用于在 Node.js 应用中读取和管理扫描文档。它允许开发者加载、读取、更新、删除或从文档中提取文本或图像，并且只需几行代码即可执行搜索、过滤、排序等高级操作。该库设计灵活且可扩展，适用于从小型文档管理系统到大型企业解决方案的各种应用。对软件开发者而言，它抽象了处理原始文档数据的复杂性，能够创建处理扫描文档、自动化工作流或从图像中提取有用信息的定制应用程序。

概览

DocumentVision 功能概览。

Features Overview

从 Docx 提取文本
从 Word 提取文本
提取表格
处理脚注
解析 Word Docx
读取链接
提取图像
换行符
社区支持
提取特定部分

DocumentVision

DocumentVision 支持以下格式。

Reader

DOCX

Writer

HTML

DocumentVision

平台独立性

DocumentVision 只需 Java 运行时环境。

JavaScript

DocumentVision

开始使用 DocumentVision

要安装 DocumentVision，您可以使用 npm（JavaScript 的包管理器）。请使用以下命令进行成功安装。

通过 npm 安装 DocumentVision

$ npm install dv

通过 GitHub 安装 DocumentVision

clone https://github.com/creatale/node-dv.git

通过 Node.js 库加载与操作图像

开源的 DocumentVision 库通过与 OpenCV 的集成，使软件开发者能够执行各种图像处理任务。它允许开发者提升图像质量、调整尺寸，甚至对图像进行预处理以获得更好的 OCR 结果。软件开发者可以在处理前加载、调整大小、旋转并调节图像以提升质量。您还可以加载扫描文档和图像，并在 Node.js 应用中提取其中的文本。以下示例演示了软件开发者如何在 Node.js 应用中调整图像大小并旋转。

如何在 Node.js 应用中调整图像大小并旋转？

const image = new dv.Image('path/to/image.png');
// Resize and rotate the image
image.resize(800, 600).rotate(90).save('path/to/output.png')

Node.js 中的光学字符识别（OCR）

DocumentVision 集成了 Tesseract 引擎，使用户能够在 Node.js 应用中将扫描文档或图像中的文本转换为可编辑格式。此功能对文档数字化至关重要，能够让软件开发者从 PDF 或扫描的 JPEG 等图像文件中提取印刷文本。以下代码示例展示了开发者如何在 Node.js 环境中加载并提取 PNG 图像的文本。

如何在 Node.js 应用中从 PNG 图像提取文本？

const dv = require('node-dv');
const ocr = new dv.OCR();

ocr.recognize('path/to/image.png', (err, text) => {
    if (err) {
        console.error('OCR Error:', err);
    } else {
        console.log('Extracted Text:', text);
    }
});

Node.js 中的条码检测与解码

条码读取是开源 DocumentVision 库的另一个关键功能，通过集成 ZXing 条码扫描器实现。此功能有助于管理包含条码的文档，如运输标签、发票或产品信息表。以下是一个简单示例，展示软件开发者如何在 Node.js 应用中加载条码图像并进行解码。

如何在 Node.js 应用中加载并解码条码图像？

const barcode = new dv.Barcode();
barcode.decode('path/to/barcode.png', (err, result) => {
    if (err) {
        console.error('Barcode Error:', err);
    } else {
        console.log('Decoded Barcode:', result);
    }
});

可定制的工作流

DocumentVision 提供了一个强大且灵活的平台，供开发者构建处理扫描文档的定制应用。该库支持定制，使开发者能够根据特定需求调整处理流水线。这种灵活性可以带来针对特定使用场景的更高效工作流。