Бесплатная библиотека Node.js для извлечения контента и метаданных из DOCX

Мощная открытая библиотека Node.js позволяет разработчикам парсить/извлекать текст, изображения и метаданные из документов Office DOCX, PPTX, ODT, ODP и XLSX в приложениях Node.js.

Что такое OfficeParser?

В мире разработки программного обеспечения всегда нужен инструментарий, упрощающий сложные задачи. OfficeParser – выдающийся инструмент для работы с офисными документами. Это надёжная библиотека Node.js, специально разработанная для парсинга файлов Microsoft Office. Этот удобный инструмент меняет правила игры для экспертов, желающих без усилий извлекать и работать с данными из файлов Microsoft Word, Excel и PowerPoint. Библиотека разработана так, чтобы быть простой и удобной для пользователя. Её простой в использовании API делает её лёгкой для добавления в ваши проекты без лишних хлопот. Помимо базовых функций, библиотека предлагает ключевые продвинутые возможности, такие как парсинг нескольких форматов, извлечение богатых данных, бесшовная совместимость с другими приложениями и многое другое.

Разработчики могут парсить разные документы Microsoft Office с помощью OfficeParser, открытого пакета Node.js. С его помощью они легко извлекают текст, таблицы, фотографии и другой контент из документов благодаря библиотеке Harsh Ankur, поддерживающей различные форматы файлов, включая .docx, .xlsx, .odt, .odp, .pdf и .pptx. Независимо от того, нужно ли вам получить конкретные данные из таблицы или извлечь текст из слайда презентации, OfficeParser предоставляет инструменты для эффективного выполнения этих задач в среде Node.js. Библиотека позволяет получать доступ к метаданным, включённым в документы, помимо извлечения контента. Это предоставляет важный контекст для обработанных данных и включает информацию, такую как имена авторов, даты создания и история изменений. В целом, этот инструмент является ценным активом для разработчиков, работающих с файлами Microsoft Office. Его способность работать с различными форматами, наряду с удобным интерфейсом и широким набором функций извлечения данных, делает его незаменимым дополнением к набору инструментов любого разработчика.

На первый взгляд

Обзор функций OfficeParser.

Features Overview

Извлечь текст из Docx
Извлечь текст из PPTX
Извлечь таблицы
Извлечь метаданные
Парсить Word Docx
Извлечь изображения
Извлечь изображения
Разрывы строк
Поддержка сообщества
Извлечь определённые части

OfficeParser

OfficeParser поддерживает следующие форматы.

Reader

DOCX

Writer

HTML

OfficeParser

Независимость от платформы

OfficeParser требует только Java Runtime.

JavaScript

OfficeParser

Начало работы с OfficeParser

Для установки OfficeParser вы можете использовать npm, менеджер пакетов для JavaScript. Пожалуйста, выполните следующие команды для успешной установки.

Установить библиотеку OfficeParser через npm

 npm install officeparser

Парсинг и извлечение текста из Word DOCX через библиотеку Node.js

Основная функция открытой библиотеки officeParser — возможность загружать, парсить и извлекать текст из документов Office DOCX с помощью всего лишь нескольких строк кода в приложениях Node.js. Это особенно полезно для приложений, требующих анализа содержимого документов, индексации поиска или обработки текста. Ниже приведён очень простой пример, позволяющий разработчикам извлекать текст из файла .docx в приложениях Node.js.

Как извлечь текст из Word DOCX через библиотеку Node.js?

const officeParser = require('officeparser');

officeParser.parseDocx('path/to/example.docx', (err, data) => {
  if (err) {
    console.error('Error parsing .docx file:', err);
  } else {
    console.log('Extracted text:', data);
  }
});

Парсинг метаданных из Word DOCX через библиотеку Node.js

Помимо извлечения контента, открытая библиотека officeParser позволяет разработчикам получать доступ к метаданным, встроенным в их офисные документы Word, Excel и PowerPoint, и извлекать их. Это включает такие детали, как имена авторов, должность автора, даты создания и история изменений, предоставляя ценный контекст для парсенных данных. Пример ниже демонстрирует, как разработчики могут извлекать изображения из файла .docx в среде Node.js.

Как извлечь изображения из файла .docx в приложениях Node.js?

const officeParser = require('officeparser');

officeParser.parseDocxImages('path/to/example.docx', (err, images) => {
  if (err) {
    console.error('Error extracting images from .docx file:', err);
  } else {
    images.forEach((image, index) => {
      console.log(`Image ${index + 1}:`, image);
    });
  }
});

Поддержка нескольких форматов

Открытая библиотека OfficeParser может работать с несколькими форматом файлов Microsoft Office, включая .docx (Word), .xlsx (Excel) и .pptx (PowerPoint) в среде Node.js. Эта универсальность делает её универсальным решением для различных потребностей парсинга документов. Эта многформатная возможность гарантирует, что разработчики могут работать с широким спектром офисных документов, используя одну библиотеку. Она поддерживает асинхронные операции, позволяя эффективно обрабатывать большие документы без блокировки основного потока.