1. Produkti
  2.   Tekstapstrāde
  3.   Node.js
  4.   OfficeParser
 
  

Bezmaksas Node.js bibliotēka satura un metadatu izguvei no DOCX

Spēcīga atvērtā koda Node.js bibliotēka ļauj programmatūras izstrādātājiem analizēt/izguvu tekstu, attēlus un metadatus no Office DOCX, PPTX, ODT, ODP un XLSX dokumentiem Node.js lietojumprogrammās.

Kas ir OfficeParser?

Programmatūras izstrādes pasaulē vienmēr ir vajadzīgi instrumenti, kas atvieglo sarežģītu uzdevumu veikšanu. OfficeParser ir izcils rīks birojdocumentu apstrādē. Tā ir spēcīga Node.js bibliotēka, īpaši izveidota Microsoft Office failu analīzei. Šis ērtais rīks ir spēlētāja pārkārtošanas faktors programmatūras ekspertiem, kas vēlas bez piepūles izguvu un darbību ar datiem no Microsoft Word, Excel un PowerPoint failiem. Bibliotēka ir veidota vienkārši un lietotājam draudzīgi. Tā viegli lietojama API ļauj izstrādātājiem, kā jūs, to pievienot saviem projektiem bez lielām grūtībām. Papildus tās pamata funkcijām, bibliotēka piedāvā dažas galvenās uzlabotās iespējas, piemēram, daudzformātu analīzi, bagātu datu izguvi, nevainojamu saderību ar citām aplikācijām un vēl daudz ko citu.

Programmatūras izstrādātāji var analizēt dažādus Microsoft Office dokumentus, izmantojot OfficeParser, atvērtā koda Node.js pakotni. Programmatūras izstrādātāji var viegli izguvu tekstu, tabulas, fotoattēlus un citu saturu no dokumentiem, pateicoties Harsh Ankur bibliotēkai, kas atbalsta dažādus failu formātus, tostarp .docx, .xlsx, .odt, .odp, .pdf un .pptx. Neatkarīgi no tā, vai jums ir jāiegūst konkrēti datu punkti no izklājlapas vai jāizguvu teksts no prezentācijas slaida, OfficeParser nodrošina rīkus, lai šos uzdevumus veiktu efektīvi Node.js vidē. Bibliotēka ļauj piekļūt metadatiem, kas ietverti dokumentos, papildus saturam izguvei. Tas sniedz svarīgu kontekstu apstrādātajiem datiem un ietver informāciju, piemēram, autora vārdi, izveides datumi un grozīšanas vēstures. Kopumā šis rīks ir vērtīgs resurss programmatūras izstrādātājiem, kas strādā ar Microsoft Office failiem. Its spējība darboties ar dažādiem formātiem, kopā ar tās lietotājam draudzīgo saskarni un plašo datu izguves funkcijām, padara to par būtisku papildinājumu jebkuram izstrādātāja rīku komplektam.

Previous Next

Sākt ar OfficeParser

Lai instalētu OfficeParser, varat izmantot npm, JavaScript pakotņu pārvaldnieku. Lūdzu, izmantojiet šīs komandas, lai veiksmīgi instalētu.

Instalēt OfficeParser bibliotēku, izmantojot npm

 npm install officeparser 

Analizēt un izguvu tekstu no Word DOCX, izmantojot Node.js bibliotēku

Galvenā atvērtā koda officeParser bibliotēkas funkcija ir spēja ielādēt, analizēt un izguvu tekstu no Office DOCX dokumentiem ar tikai pāris koda rindām Node.js lietojumprogrammās. Tas ir īpaši noderīgi lietojumprogrammām, kam nepieciešama dokumenta satura analīze, meklēšanas indeksēšana vai teksta apstrāde. Šeit ir ļoti vienkāršs piemērs, kas ļauj programmatūras izstrādātājiem izguvu tekstu no .docx faila Node.js lietojumprogrammās.

Kā izguvu tekstu no Word DOCX, izmantojot Node.js bibliotēku?

const officeParser = require('officeparser');

officeParser.parseDocx('path/to/example.docx', (err, data) => {
  if (err) {
    console.error('Error parsing .docx file:', err);
  } else {
    console.log('Extracted text:', data);
  }
});

Analizēt metadatus no Word DOCX, izmantojot Node.js bibliotēku

Papildus satura izguvei atvērtā koda officeParser bibliotēka ļauj programmatūras izstrādātājiem piekļūt un izguvu metadatu informāciju, kas ieņemti viņu Office Word, Excel un PowerPoint dokumentos. Tas ietver tādus datus kā autora vārdi, autora amats, izveides datumi un grozīšanas vēsture, sniedzot vērtīgu kontekstu analizētajiem datiem. Turpmākais piemērs demonstrē, kā izstrādātāji var izguvu attēlus no .docx faila Node.js vidē.

Kā izguvu attēlus no .docx faila Node.js programmās?

const officeParser = require('officeparser');

officeParser.parseDocxImages('path/to/example.docx', (err, images) => {
  if (err) {
    console.error('Error extracting images from .docx file:', err);
  } else {
    images.forEach((image, index) => {
      console.log(`Image ${index + 1}:`, image);
    });
  }
});

Daudzformātu atbalsts

Atvērtā koda OfficeParser bibliotēka var apstrādāt vairākus Microsoft Office failu formātus, ieskaitot .docx (Word), .xlsx (Excel) un .pptx (PowerPoint) Node.js vidē. Šī daudzveidība padara to vienu risinājumu daudziem dokumentu analīzes vajadzībām. Šī daudzformāta spēja nodrošina, ka izstrādātāji var strādāt ar plašu Office dokumentu spektru, izmantojot vienu bibliotēku. Tā atbalsta asinhronas operācijas, ļaujot efektīvi apstrādāt lielus dokumentus, neatliekot galveno pavedienu.

 Latviski