1. Produk
  2.   Pemrosesan Kata
  3.   Node.js
  4.   OfficeParser
 
  

Library Node.js Gratis untuk Mengekstrak Konten & Metadata dari DOCX

Library Node.js Open Source yang Kuat Memungkinkan Pengembang Perangkat Lunak Mengurai/Mengekstrak Teks, Gambar, dan Metadata dari Dokumen Office DOCX, PPTX, ODT, ODP & XLSX dalam Aplikasi Node.js.

Apa itu OfficeParser?

Di dunia pengembangan perangkat lunak, selalu ada kebutuhan akan alat yang mempermudah tugas rumit. OfficeParser adalah alat yang menonjol dalam menangani dokumen kantor. Ini adalah library Node.js yang kuat, khusus dibuat untuk mengurai file Microsoft Office. Alat praktis ini mengubah permainan bagi para ahli perangkat lunak yang ingin mengekstrak dan bekerja dengan data dari file Microsoft Word, Excel, dan PowerPoint dengan mudah. Library ini dirancang sederhana dan ramah pengguna. API yang mudah dipakai memudahkan pengembang seperti Anda menambahkannya ke proyek tanpa banyak kesulitan. Selain fungsi dasar, library ini menawarkan fitur lanjutan penting seperti penguraian multi-format, mengekstrak data kaya, kompatibilitas mulus dengan aplikasi lain, dan banyak lagi.

Pengembang perangkat lunak dapat mengurai berbagai dokumen Microsoft Office dengan OfficeParser, paket Node.js open source. Pengembang dapat dengan mudah mengekstrak teks, tabel, foto, dan konten lain dari dokumen berkat library Harsh Ankur, yang mendukung berbagai format file, termasuk .docx, .xlsx, .odt, .odp, .pdf, dan .pptx. Apakah Anda perlu memperoleh poin data spesifik dari spreadsheet atau mengekstrak teks dari slide presentasi, OfficeParser memberi alat untuk melakukan pekerjaan tersebut secara efisien dalam lingkungan Node.js. Library memungkinkan Anda mengakses metadata yang termasuk dalam dokumen selain pengekstrakan konten. Ini memberikan konteks penting untuk data yang diproses, termasuk nama penulis, tanggal pembuatan, dan riwayat perubahan. Secara umum, alat ini merupakan aset berharga bagi pengembang perangkat lunak yang berurusan dengan file Microsoft Office. Kemampuannya bekerja dengan berbagai format, bersama antarmuka yang ramah pengguna dan fungsi pengekstrakan data yang luas, menjadikannya tambahan penting bagi setiap set alat pengembang.

Previous Next

Memulai dengan OfficeParser

Untuk menginstal OfficeParser, Anda dapat menggunakan npm, manajer paket untuk JavaScript. Silakan gunakan perintah berikut untuk instalasi yang berhasil.

Instal library OfficeParser via npm

 npm install officeparser 

Mengurai & Mengekstrak Teks dari Word DOCX via Library Node.js

Fitur utama dari library open source officeParser adalah kemampuannya memuat, mengurai, dan mengekstrak teks dari dokumen Office DOCX hanya dengan beberapa baris kode dalam aplikasi Node.js. Ini sangat berguna untuk aplikasi yang memerlukan analisis konten dokumen, indeks pencarian, atau pemrosesan teks. Berikut contoh sangat sederhana yang memungkinkan pengembang perangkat lunak mengekstrak teks dari file .docx dalam aplikasi Node.js.

Cara Mengekstrak Teks dari Word DOCX via Library Node.js?

const officeParser = require('officeparser');

officeParser.parseDocx('path/to/example.docx', (err, data) => {
  if (err) {
    console.error('Error parsing .docx file:', err);
  } else {
    console.log('Extracted text:', data);
  }
});

Mengurai Metadata dari Word DOCX via Library Node.js

Selain mengekstrak konten, library open source officeParser memungkinkan pengembang perangkat lunak mengakses dan mengekstrak informasi metadata yang disematkan dalam dokumen Word, Excel, dan PowerPoint mereka. Ini mencakup detail seperti nama penulis, judul penulis, tanggal pembuatan, dan riwayat perubahan, memberikan konteks berharga untuk data yang diurai. Contoh berikut menunjukkan cara pengembang mengekstrak gambar dari file .docx di dalam lingkungan Node.js.

Cara Mengekstrak Gambar dari File .docx di dalam Aplikasi Node.js?

const officeParser = require('officeparser');

officeParser.parseDocxImages('path/to/example.docx', (err, images) => {
  if (err) {
    console.error('Error extracting images from .docx file:', err);
  } else {
    images.forEach((image, index) => {
      console.log(`Image ${index + 1}:`, image);
    });
  }
});

Dukungan Multi-Format

Library open source OfficeParser dapat menangani banyak format file Microsoft Office, termasuk .docx (Word), .xlsx (Excel), dan .pptx (PowerPoint) dalam lingkungan Node.js. Fleksibilitas ini menjadikannya solusi satu pintu untuk berbagai kebutuhan penguraian dokumen. Kemampuan multi-format ini memastikan pengembang dapat bekerja dengan spektrum luas dokumen Office menggunakan satu library. Ia mendukung operasi asinkron, memungkinkan pemrosesan dokumen besar secara efisien tanpa memblokir thread utama.

 Indonesia