Kostenlose Node.js-Bibliothek zum Extrahieren von Daten aus gescannten Dokumenten

Führende Open-Source-Node.js-Bibliothek zur Verarbeitung gescannter Dokumente ermöglicht das effiziente Laden, Lesen, Verarbeiten und Extrahieren von Text aus gescannten Dokumenten in Node.js‑Apps.

Was ist DocumentVision?

Im heutigen digitalen Zeitalter ist das effiziente Verwalten von Dokumenten für Organisationen jeder Größe entscheidend. Mit dem zunehmenden Dokumentenvolumen kann es schwierig sein, deren Integrität, Sicherheit und Zugänglichkeit zu wahren. Hier kommt DocumentVision, eine Open‑Source‑Bibliothek, ins Spiel. DV ist eine leistungsstarke Open‑Source‑Bibliothek, die für Softwareentwickler konzipiert ist, die mit gescannten Dokumenten arbeiten müssen. Auf Node.js aufgebaut, nutzt sie mehrere robuste Technologien, darunter Tesseract für optische Zeichenerkennung (OCR), OpenCV für Bildverarbeitung und ZXing für das Lesen von Barcodes. Diese Kombination ermöglicht es Softwareentwicklern, Anwendungen zu erstellen, die Dokumenten‑Management‑Aufgaben effizient bewältigen.

DocumentVision ist eine Node.js‑Bibliothek, die ein umfassendes Set an Werkzeugen zum Lesen und Verwalten gescannter Dokumente in Node.js‑Anwendungen bereitstellt. Sie ermöglicht Entwicklern das Laden, Lesen, Aktualisieren, Löschen oder Extrahieren von Text oder Bildern aus Dokumenten sowie das Ausführen fortgeschrittener Operationen wie Suchen, Filtern und Sortieren mit nur wenigen Code‑Zeilen.. Die Bibliothek ist flexibel und skalierbar konzipiert, wodurch sie für ein breites Spektrum an Anwendungen geeignet ist, von kleinen Dokumenten‑Management‑Systemen bis hin zu groß angelegten Unternehmenslösungen. Für Softwareentwickler abstrahiert sie die Komplexität beim Umgang mit Rohdaten von Dokumenten und ermöglicht die Erstellung maßgeschneiderter Anwendungen, die gescannte Dokumente verarbeiten, Workflows automatisieren oder nützliche Informationen aus Bildern extrahieren.

Auf einen Blick

Ein Überblick über die Funktionen von DocumentVision.

Features Overview

Text aus Docx extrahieren
Text aus Word extrahieren
Tabellen extrahieren
Fußnoten verarbeiten
Word Docx parsen
Links lesen
Bilder extrahieren
Zeilenumbrüche
Community‑Support
Spezifische Teile extrahieren

DocumentVision

DocumentVision unterstützt die folgenden Formate.

Reader

DOCX

Writer

HTML

DocumentVision

Plattformunabhängigkeit

DocumentVision benötigt lediglich die Java-Laufzeit.

JavaScript

DocumentVision

Erste Schritte mit DocumentVision

Um DocumentVision zu installieren, können Sie npm, den Paketmanager für JavaScript, verwenden. Bitte nutzen Sie die folgenden Befehle für eine erfolgreiche Installation.

DocumentVision via npm installieren

$ npm install dv

DocumentVision via GitHub installieren

clone https://github.com/creatale/node-dv.git

Bilder laden & manipulieren via Node.js-Bibliothek

Die Open‑Source‑Bibliothek DocumentVision ermöglicht es Softwareentwicklern, verschiedene Bildverarbeitungsaufgaben über ihre Integration mit OpenCV durchzuführen. Sie erlaubt es Entwicklern, die Bildqualität zu verbessern, Abmessungen anzupassen oder das Bild für bessere OCR‑Ergebnisse vorzuprozessieren. Softwareentwickler können Bilder laden, skalieren, drehen und anpassen, um deren Qualität vor der Verarbeitung zu steigern. Sie können auch gescannte Dokumente sowie Bilder laden und daraus Text in Node.js‑Anwendungen extrahieren. Hier ein Beispiel, das zeigt, wie Softwareentwickler Bilder in Node.js‑Anwendungen skalieren und drehen können.

Wie kann man das Bild in Node.js‑Apps skalieren und drehen?

const image = new dv.Image('path/to/image.png');
// Resize and rotate the image
image.resize(800, 600).rotate(90).save('path/to/output.png')

Optische Zeichenerkennung (OCR) in Node.js

DocumentVision integriert die Tesseract‑Engine, sodass Benutzer Text aus gescannten Dokumenten oder Bildern in editierbare Formate innerhalb von Node.js‑Anwendungen konvertieren können. Diese Funktion ist für die Dokumentendigitalisierung entscheidend und ermöglicht es Softwareentwicklern, gedruckten Text aus Bilddateien wie PDFs oder gescannten JPEGs zu extrahieren. Das folgende Code‑Beispiel zeigt, wie Entwickler PNG‑Bilder in einer Node.js‑Umgebung laden und den Text extrahieren können.

Wie extrahiert man Text aus PNG‑Bildern in Node.js‑Apps?

const dv = require('node-dv');
const ocr = new dv.OCR();

ocr.recognize('path/to/image.png', (err, text) => {
    if (err) {
        console.error('OCR Error:', err);
    } else {
        console.log('Extracted Text:', text);
    }
});

Barcode-Erkennung & -Dekodierung in Node.js

Das Lesen von Barcodes ist ein weiteres wesentliches Merkmal der Open‑Source‑Bibliothek DocumentVision, das durch die Integration des ZXing‑Barcode‑Scanners ermöglicht wird. Diese Funktion ist nützlich für die Verwaltung von Dokumenten, die Barcodes enthalten, wie Versandetiketten, Rechnungen oder Produktinformationsblätter. Hier ein einfaches Beispiel, das zeigt, wie Softwareentwickler ein Barcode‑Bild laden und in Node.js‑Anwendungen dekodieren können.

Wie lädt und dekodiert man Barcode‑Bilder in Node.js‑Apps?

const barcode = new dv.Barcode();
barcode.decode('path/to/barcode.png', (err, result) => {
    if (err) {
        console.error('Barcode Error:', err);
    } else {
        console.log('Decoded Barcode:', result);
    }
});

Anpassbarer Arbeitsablauf

DocumentVision bietet eine robuste und flexible Plattform für Entwickler, um maßgeschneiderte Anwendungen zu erstellen, die mit gescannten Dokumenten arbeiten. Die Bibliothek ermöglicht Anpassungen, sodass Entwickler die Verarbeitungspipeline an ihre spezifischen Anforderungen anpassen können. Diese Flexibilität kann zu effizienteren Workflows führen, die auf besondere Anwendungsfälle zugeschnitten sind.