1. Produkter
  2.   Tekstbehandling
  3.   Node.js
  4.   Node-Word-Extractor
 
  

Gratis bibliotek for å lese og trekke ut data fra Word-dokument

Åpen kilde Node.js-bibliotek for å effektivt analysere samt prosessere Word-dokumenter og trekke ut tekst fra .DOC- og .DOCX-filer i Node.js-apper.

Hva er Node-Word-Extractor?

Når du jobber med Word-dokumenter, er evnen til å lese og hente tekst fra ulike filtyper avgjørende. Node-Word-Extractor, et åpen kilde-bibliotek opprettet av Morungos, er et flott verktøy for denne oppgaven. Spesielt designet for Node.js, tilbyr dette biblioteket en enkel og effektiv metode for å trekke ut tekst fra Microsoft Word-dokumenter i en server-side JavaScript-oppsett. Det kan håndtere både gamle .doc-filer og nyere .docx-formater, og sikrer sømløs kompatibilitet med et bredt spekter av Word-dokumenter.

Node-Word-Extractor-verktøyet er laget for å laste inn og analysere Microsoft Word-filer for å trekke ut tekst i et Node.js-miljø. Det er et praktisk verktøy for programvareutviklere som arbeider med oppgaver som tekstdatamanipulering, innholdsadministrasjon, datamigrering og dokumentindeksering. Med sterk feilbehandling-støtte håndterer verktøyet jevnt eventuelle problemer som kan oppstå under tekstuttrekk, og gjør det enklere for deg å jobbe med prosjektene dine uten avbrudd og bygge pålitelige applikasjoner.

Previous Next

Kom i gang med Node-Word-Extractor

Node-Word-Extractor krever bare Java-runtime.

Installer Node-Word-Extractor-biblioteket via npm

 npm install officeparser 

Trekk ut tekst fra Word-dokument i Node.js

For å installere Node-Word-Extractor-biblioteket, kan du bruke npm, pakkebehandleren for JavaScript. Vennligst bruk følgende kommandoer for en vellykket installasjon.

Hvordan trekke ut tekst fra et Word-dokument i Node.js?

const officeParser = require('officeparser');

officeParser.parseDocx('path/to/example.docx', (err, data) => {
  if (err) {
    console.error('Error parsing .docx file:', err);
  } else {
    console.log('Extracted text:', data);
  }
});

Avansert tekstbehandling i Node.js

Det åpne kilde Node-Word-Extractor-biblioteket gir programvareutviklere full makt til å laste inn et eksisterende Word-dokument og trekke ut tekst fra det i en Node.js-applikasjon. Det finnes flere nyttige metoder for jevn datauthenting, som å hente innholdstekst fra et Word-dokument, hente fotnote- og sluttnotetekst, hente tekst for topptekst og bunntekst, hente kommentarbobletekst, hente innholdstekst fra tekstbokser og mye mer. Her er et enkelt eksempel som viser hvordan en programvareutvikler kan hente tekst fra Word-dokumenter i Node.js-applikasjoner.

How to Extract Images from a .docx File inside Node.js Apps?

const officeParser = require('officeparser');

officeParser.parseDocxImages('path/to/example.docx', (err, images) => {
  if (err) {
    console.error('Error extracting images from .docx file:', err);
  } else {
    images.forEach((image, index) => {
      console.log(`Image ${index + 1}:`, image);
    });
  }
});

Bedre fellesskapsstøtte

Det åpne kilde Node-Word-Extractor-biblioteket gjør det enkelt for programvareutviklere å hente og viderebehandle tekst fra Word-dokumenter. Biblioteket gir mer avanserte funksjoner for utviklere som trenger å utføre ekstra behandling på den hentede teksten. For eksempel gir biblioteket tilgang til metadata og støtter uttrekk av spesifikke deler av dokumentet, som topptekst, bunntekst, kommentarer, innhold i tekstbokser med mer.

 Norsk