Безкоштовна бібліотека Node.js для вилучення вмісту та метаданих з DOCX

Потужна open source бібліотека Node.js дозволяє розробникам парсити/вилучати текст, зображення та метадані з Office DOCX, PPTX, ODT, ODP та XLSX документів у Node.js‑додатках.

Що таке OfficeParser?

У світі розробки програмного забезпечення завжди потрібні інструменти, які спрощують складні завдання. OfficeParser – видатний інструмент у сфері роботи з офісними документами. Це потужна бібліотека Node.js, спеціально створена для парсингу файлів Microsoft Office. Цей зручний інструмент є справжньою «переломною» технологією для розробників, які хочуть без зусиль вилучати та працювати з даними з файлів Microsoft Word, Excel та PowerPoint. Бібліотека створена так, щоб бути простою та зручною у використанні. Її простий у використанні API дозволяє розробникам, таким як ви, без зайвих проблем додавати її до своїх проектів. Окрім базових функцій, бібліотека пропонує кілька ключових розширених можливостей, таких як парсинг мультиформатних даних, вилучення насичених даних, безперебійна сумісність з іншими додатками та інше.

Розробники програмного забезпечення можуть парсити різні документи Microsoft Office за допомогою OfficeParser, open‑source пакету Node.js. Завдяки бібліотеці Harsh Ankur розробники можуть легко вилучати текст, таблиці, фотографії та інший контент з документів, підтримуючи різноманітні формати файлів, включно з .docx, .xlsx, .odt, .odp, .pdf і .pptx. Незалежно від того, чи потрібно отримати конкретні дані зі спредшиту або вилучити текст зі слайду презентації, OfficeParser надає інструменти для ефективного виконання цих завдань у середовищі Node.js. Бібліотека дозволяє отримати доступ до метаданих, включених у документи, окрім самого вилучення вмісту. Це забезпечує важливий контекст оброблених даних і включає інформацію, таку як імена авторів, дати створення та історію змін. Узагальнено, цей інструмент є цінним активом для розробників, які працюють з файлами Microsoft Office. Його здатність працювати з різними форматами, разом з зручним інтерфейсом і широким набором функцій вилучення даних, робить його необхідним доповненням до набору інструментів будь‑якого розробника.

На перший погляд

Огляд функцій OfficeParser.

Features Overview

Вилучити текст з Docx
Вилучити текст з PPTX
Вилучити таблиці
Вилучити метадані
Парсити Word Docx
Вилучити зображення
Вилучити зображення
Розриви рядків
Підтримка спільноти
Вилучити конкретні частини

OfficeParser

OfficeParser підтримує наступні формати.

Reader

DOCX

Writer

HTML

OfficeParser

Платформонезалежність

OfficeParser потребує лише Java runtime.

JavaScript

OfficeParser

Початок роботи з OfficeParser

Для встановлення OfficeParser ви можете використати npm, менеджер пакетів для JavaScript. Будь ласка, використайте наступні команди для успішної інсталяції.

Встановіть бібліотеку OfficeParser через npm

 npm install officeparser

Парсинг та вилучення тексту з Word DOCX через бібліотеку Node.js

Основна функція open‑source бібліотеки officeParser – це здатність завантажувати, парсити та вилучати текст з Office DOCX документів за допомогою лише кількох рядків коду у Node.js‑застосунках. Це особливо корисно для застосувань, які потребують аналізу вмісту документів, індексування пошуку або обробки тексту. Нижче наведено дуже простий приклад, який дозволяє розробникам вилучати текст із .docx файлу у Node.js‑застосунках.

Як вилучити текст з Word DOCX через бібліотеку Node.js?

const officeParser = require('officeparser');

officeParser.parseDocx('path/to/example.docx', (err, data) => {
  if (err) {
    console.error('Error parsing .docx file:', err);
  } else {
    console.log('Extracted text:', data);
  }
});

Парсинг метаданих з Word DOCX через бібліотеку Node.js

Окрім вилучення вмісту, open‑source бібліотека officeParser дозволяє розробникам отримувати доступ до метаданих, вбудованих у їхні офісні документи Word, Excel та PowerPoint. Це включає деталі, такі як імена авторів, назви авторів, дати створення та історію змін, що надає цінний контекст для проаналізованих даних. Нижче наведено приклад, який демонструє, як розробники можуть вилучати зображення з .docx файлу у середовищі Node.js.

Як вилучити зображення з .docx файлу у Node.js‑додатках?

const officeParser = require('officeparser');

officeParser.parseDocxImages('path/to/example.docx', (err, images) => {
  if (err) {
    console.error('Error extracting images from .docx file:', err);
  } else {
    images.forEach((image, index) => {
      console.log(`Image ${index + 1}:`, image);
    });
  }
});

Підтримка мультиформатності

Open‑source бібліотека OfficeParser може працювати з кількома форматами Microsoft Office, включаючи .docx (Word), .xlsx (Excel) та .pptx (PowerPoint) у середовищі Node.js. Ця універсальність робить її універсальним рішенням для різноманітних потреб парсингу документів. Ця багатоформатна можливість гарантує, що розробники можуть працювати з широким спектром офісних документів за допомогою однієї бібліотеки. Вона підтримує асинхронні операції, що дозволяє ефективно обробляти великі документи без блокування головного потоку.