کتابخانه رایگان Node.js برای استخراج محتوا و متادیتا از DOCX

یک کتابخانه قدرتمند منبع باز Node.js به توسعه‌دهندگان نرم‌افزار امکان تجزیه/استخراج متن، تصویر و متادیتا از اسناد Office DOCX، PPTX، ODT، ODP و XLSX در برنامه‌های Node.js را می‌دهد.

OfficeParser چیست؟

در دنیای توسعه نرم‌افزار همیشه نیاز به ابزارهایی وجود دارد که کارهای پیچیده را آسان‌تر کنند. OfficeParser یک ابزار برجسته در حوزهٔ پردازش اسناد اداری است. این یک کتابخانهٔ قدرتمند Node.js است که به‌طور خاص برای تجزیه فایل‌های Microsoft Office ساخته شده است. این ابزار مفید، تغییر دهندهٔ بازی برای متخصصان نرم‌افزار است که می‌خواهند به‌سادگی داده‌ها را از فایل‌های Microsoft Word، Excel و PowerPoint استخراج و با آن کار کنند. کتابخانه به‌گونه‌ای طراحی شده که ساده و کاربرپسند باشد. API آسان‌استفاده‌اش باعث می‌شود توسعه‌دهندگانی مانند شما به‌راحتی آن را به پروژه‌های خود اضافه کنید بدون دردسر زیاد. علاوه بر عملکردهای پایه، کتابخانه برخی ویژگی‌های پیشرفته کلیدی مانند تجزیه چندفرمت، استخراج داده‌های غنی، سازگاری یکپارچه با برنامه‌های دیگر و غیره را ارائه می‌دهد.

توسعه‌دهندگان نرم‌افزار می‌توانند اسناد مختلف Microsoft Office را با OfficeParser، یک بسته منبع باز Node.js، تجزیه کنند. توسعه‌دهندگان می‌توانند به‌راحتی متن، جداول، عکس‌ها و سایر محتوا را از اسناد استخراج کنند با کمک کتابخانهٔ Harsh Ankur که از انواع فرمت‌های فایل شامل .docx، .xlsx، .odt، .odp، .pdf و .pptx پشتیبانی می‌کند. چه نیاز به به‌دست آوردن نقاط داده خاصی از یک صفحه‌گسترده داشته باشید یا متن را از یک اسلاید ارائه استخراج کنید، OfficeParser ابزارهای لازم را برای انجام این کارها به‌صورت کارآمد در محیط Node.js فراهم می‌کند. این کتابخانه به شما اجازه می‌دهد به متادیتای موجود در اسناد دسترسی داشته باشید علاوه بر استخراج محتوا. این اطلاعات زمینه مهمی برای داده‌های پردازش‌شده فراهم می‌کند و شامل اطلاعاتی مانند نام نویسنده، تاریخ ایجاد و تاریخچهٔ تغییرات است. به‌طور کلی، این ابزار یک دارایی ارزشمند برای توسعه‌دهندگان نرم‌افزاری است که با فایل‌های Microsoft Office کار می‌کنند. توانایی کار با فرمت‌های مختلف، به‌همراه رابط کاربری کاربرپسند و عملکردهای گسترده استخراج داده، آن را به یک افزونهٔ اساسی برای مجموعهٔ ابزار هر توسعه‌دهنده تبدیل می‌کند.

Previous Next

شروع کار با OfficeParser

برای نصب OfficeParser می‌توانید از npm، مدیر بسته‌های JavaScript، استفاده کنید. لطفاً دستورات زیر را برای نصب موفق اجرا کنید.

نصب کتابخانه OfficeParser از طریق npm

 npm install officeparser 

تجزیه و استخراج متن از Word DOCX با کتابخانه Node.js

ویژگی اصلی کتابخانه منبع باز officeParser قابلیت بارگذاری، تجزیه و استخراج متن از اسناد Office DOCX با تنها چند خط کد در داخل برنامه‌های Node.js است. این ویژگی به‌ویژه برای برنامه‌هایی که به تحلیل محتوای اسناد، ایندکس‌گذاری جستجو یا پردازش متن نیاز دارند، مفید است. در ادامه یک مثال بسیار ساده آورده شده است که به توسعه‌دهندگان نرم‌افزار امکان استخراج متن از یک فایل .docx در برنامه‌های Node.js را می‌دهد.

چگونه متن را از Word DOCX با استفاده از کتابخانه Node.js استخراج کنیم؟

const officeParser = require('officeparser');

officeParser.parseDocx('path/to/example.docx', (err, data) => {
  if (err) {
    console.error('Error parsing .docx file:', err);
  } else {
    console.log('Extracted text:', data);
  }
});

تجزیه متادیتا از Word DOCX با کتابخانه Node.js

علاوه بر استخراج محتوا، کتابخانه منبع باز officeParser به توسعه‌دهندگان نرم‌افزار اجازه می‌دهد به اطلاعات متادیتایی که در اسناد Word، Excel و PowerPoint آن‌ها جاسازی شده است دسترسی پیدا کرده و استخراج کنند. این شامل جزئیاتی مانند نام نویسنده، عنوان نویسنده، تاریخ‌های ایجاد و تاریخچهٔ تغییرات می‌شود که زمینهٔ ارزشمندی برای داده‌های پردازش‌شده فراهم می‌کند. مثال زیر نشان می‌دهد چگونه توسعه‌دهندگان می‌توانند تصاویر را از یک فایل .docx در محیط Node.js استخراج کنند.

چگونه تصاویر را از یک فایل .docx در داخل برنامه‌های Node.js استخراج کنیم؟

const officeParser = require('officeparser');

officeParser.parseDocxImages('path/to/example.docx', (err, images) => {
  if (err) {
    console.error('Error extracting images from .docx file:', err);
  } else {
    images.forEach((image, index) => {
      console.log(`Image ${index + 1}:`, image);
    });
  }
});

پشتیبانی چندفرمت

کتابخانه منبع باز OfficeParser می‌تواند چندین فرمت فایل Microsoft Office را پردازش کند، از جمله .docx (Word)، .xlsx (Excel) و .pptx (PowerPoint) در محیط Node.js. این چندمنظوره بودن آن را به یک راه‌حل جامع برای نیازهای مختلف تجزیه اسناد تبدیل می‌کند. این قابلیت چندفرمت اطمینان می‌دهد که توسعه‌دهندگان می‌توانند با طیف گسترده‌ای از اسناد Office با استفاده از یک کتابخانه کار کنند. این کتابخانه از عملیات ناهمزمان پشتیبانی می‌کند و امکان پردازش مؤثر اسناد بزرگ بدون مسدود کردن رشتهٔ اصلی را فراهم می‌کند.

 فارسی