DOCX से कंटेंट और मेटा‑डेटा निकालने के लिए मुफ्त Node.js लाइब्रेरी

एक शक्तिशाली ओपन सोर्स Node.js लाइब्रेरी जो सॉफ़्टवेयर डेवलपर्स को Office DOCX, PPTX, ODT, ODP और XLSX दस्तावेज़ों से टेक्स्ट, इमेज और मेटा‑डेटा को पार्स/एक्सट्रैक्ट करने की अनुमति देती है, Node.js ऐप्स में।

OfficeParser क्या है?

सॉफ़्टवेयर डिवेलपमेंट की दुनिया में हमेशा ऐसे टूल की आवश्यकता रहती है जो जटिल कार्यों को आसान बनाते हैं। OfficeParser ऑफिस दस्तावेज़ों को संभालने के क्षेत्र में एक प्रमुख टूल है। यह Microsoft Office फ़ाइलों को पार्स करने के लिए विशेष रूप से बनाया गया एक मजबूत Node.js लाइब्रेरी है। यह उपयोगी टूल उन सॉफ़्टवेयर विशेषज्ञों के लिए एक गेम‑चेंजर है जो Microsoft Word, Excel और PowerPoint फ़ाइलों से डेटा को आसानी से निकालना और उन पर काम करना चाहते हैं। लाइब्रेरी को सरल और उपयोगकर्ता‑मित्र बनाकर तैयार किया गया है। इसका उपयोग‑में‑आसान API आपके जैसे डेवलपर्स के लिए इसे अपने प्रोजेक्ट्स में बिना अधिक मेहनत के जोड़ना आसान बनाता है। बुनियादी कार्यों के अलावा, लाइब्रेरी बहु‑फ़ॉर्मैट पार्सिंग, समृद्ध डेटा निकालना, अन्य ऐप्स के साथ सहज संगतता जैसे कुछ प्रमुख उन्नत फीचर भी प्रदान करती है, आदि।

सॉफ़्टवेयर डेवलपर्स OfficeParser, एक ओपन‑सोर्स Node.js पैकेज के साथ विभिन्न Microsoft Office दस्तावेज़ों को पार्स कर सकते हैं। Harsh Ankur की लाइब्रेरी की मदद से, जो .docx, .xlsx, .odt, .odp, .pdf और .pptx सहित विभिन्न फ़ाइल फ़ॉर्मैटों का समर्थन करती है, सॉफ़्टवेयर डेवलपर्स आसानी से दस्तावेज़ों से टेक्स्ट, टेबल, फ़ोटो और अन्य सामग्री निकाल सकते हैं। चाहे आपको स्प्रेडशीट से विशिष्ट डेटा पॉइंट चाहिए हों या प्रस्तुति स्लाइड से टेक्स्ट निकालना हो, OfficeParser Node.js पर्यावरण के भीतर इन कार्यों को कुशलतापूर्वक करने के लिए टूल प्रदान करती है। लाइब्रेरी सामग्री निष्कर्षण के अतिरिक्त दस्तावेज़ों में सम्मिलित मेटा‑डेटा तक पहुँच देती है। यह प्रोसेस्ड डेटा के लिए महत्वपूर्ण संदर्भ प्रदान करता है और लेखक नाम, निर्माण तिथियों, और संशोधन इतिहास जैसी जानकारी शामिल करता है। सामान्यतः, यह टूल उन सॉफ़्टवेयर डेवलपर्स के लिए एक मूल्यवान संपत्ति है जो Microsoft Office फ़ाइलों के साथ काम करते हैं। विभिन्न फ़ॉर्मैटों के साथ काम करने की इसकी क्षमता, उपयोगकर्ता‑मित्र इंटरफ़ेस और व्यापक डेटा निष्कर्षण फ़ंक्शन इसे हर डेवलपर के टूल सेट में अनिवार्य बनाते हैं।

एक नज़र में

OfficeParser सुविधाओं का एक अवलोकन।

Features Overview

Docx से टेक्स्ट निकालें
PPTX से टेक्स्ट निकालें
टेबल निकालें
मेटा‑डेटा निकालें
Word Docx पार्स करें
इमेज निकालें
इमेज निकालें
लाइन ब्रेक
समुदाय समर्थन
विशिष्ट भाग निकालें

OfficeParser

OfficeParser निम्नलिखित फ़ॉर्मैट्स का समर्थन करता है।

Reader

DOCX

Writer

HTML

OfficeParser

प्लेटफ़ॉर्म स्वतंत्रता

OfficeParser को केवल Java रनटाइम की आवश्यकता होती है।

JavaScript

OfficeParser

OfficeParser के साथ शुरुआत

OfficeParser स्थापित करने के लिए, आप npm, जो JavaScript का पैकेज मैनेजर है, का उपयोग कर सकते हैं। सफल इंस्टॉलेशन के लिए कृपया नीचे दिए गए कमांड्स का उपयोग करें।

npm के माध्यम से OfficeParser लाइब्रेरी स्थापित करें

 npm install officeparser

Node.js लाइब्रेरी के माध्यम से Word DOCX से टेक्स्ट पार्स और एक्सट्रैक्ट करें

ओपन सोर्स officeParser लाइब्रेरी की प्रमुख विशेषता यह है कि यह Node.js एप्लिकेशनों के भीतर कुछ ही कोड लाइनों के साथ Office DOCX दस्तावेज़ों को लोड, पार्स और टेक्स्ट निकालने में सक्षम है। यह विशेष रूप से उन एप्लिकेशनों के लिए उपयोगी है जिन्हें दस्तावेज़ सामग्री विश्लेषण, सर्च इंडेक्सिंग या टेक्स्ट प्रोसेसिंग की आवश्यकता होती है। नीचे एक बहुत सरल उदाहरण दिया गया है जो सॉफ़्टवेयर डेवलपर्स को Node.js एप्लिकेशनों के भीतर .docx फ़ाइल से टेक्स्ट निकालने की अनुमति देता है।

Node.js लाइब्रेरी के माध्यम से Word DOCX से टेक्स्ट कैसे निकालें?

const officeParser = require('officeparser');

officeParser.parseDocx('path/to/example.docx', (err, data) => {
  if (err) {
    console.error('Error parsing .docx file:', err);
  } else {
    console.log('Extracted text:', data);
  }
});

Node.js लाइब्रेरी के माध्यम से Word DOCX से मेटा‑डेटा पार्स करें

सामग्री निकालने के अलावा, ओपन सोर्स officeParser लाइब्रेरी सॉफ़्टवेयर डेवलपर्स को उनके Office Word, Excel और PowerPoint दस्तावेज़ों में एम्बेडेड मेटा‑डेटा जानकारी तक पहुँच और उसे निकालने की अनुमति देती है। इसमें लेखक नाम, लेखक शीर्षक, निर्माण तिथियाँ, और संशोधन इतिहास जैसी जानकारी शामिल है, जो पार्स किए गए डेटा के लिए मूल्यवान संदर्भ प्रदान करती है। नीचे दिया गया उदाहरण दर्शाता है कि डेवलपर्स Node.js पर्यावरण में .docx फ़ाइल से इमेज कैसे निकाल सकते हैं।

Node.js ऐप्स के भीतर .docx फ़ाइल से इमेज कैसे निकालें?

const officeParser = require('officeparser');

officeParser.parseDocxImages('path/to/example.docx', (err, images) => {
  if (err) {
    console.error('Error extracting images from .docx file:', err);
  } else {
    images.forEach((image, index) => {
      console.log(`Image ${index + 1}:`, image);
    });
  }
});

बहु‑फ़ॉर्मैट समर्थन

ओपन सोर्स OfficeParser लाइब्रेरी Node.js पर्यावरण में कई Microsoft Office फ़ाइल फ़ॉर्मैटों को संभाल सकती है, जिसमें .docx (Word), .xlsx (Excel) और .pptx (PowerPoint) शामिल हैं। यह बहुमुखीता इसे विभिन्न दस्तावेज़ पार्सिंग आवश्यकताओं के लिए एक ही समाधान बनाती है। यह बहु‑फ़ॉर्मैट क्षमता सुनिश्चित करती है कि डेवलपर्स एक ही लाइब्रेरी का उपयोग करके व्यापक स्पेक्ट्रम के Office दस्तावेज़ों पर काम कर सकें। यह असिंक्रोनस ऑपरेशन्स का समर्थन करती है, जिससे मुख्य थ्रेड को ब्लॉक किए बिना बड़े दस्तावेज़ों की कुशल प्रोसेसिंग संभव होती है।