Бесплатная Ruby‑библиотека для конвертации Microsoft Word в Markdown

Открытая Ruby‑гема, позволяющая разработчикам читать и конвертировать документы Microsoft Word (DOCX или DOC) в чистый, читаемый человеком файл Markdown.

Что такое Word to Markdown?

При создании контента и построении сайтов структура текста имеет критическое значение. Несмотря на то, что Microsoft Word широко используется для создания документов, в веб‑писании стал популярным Markdown. Его простое форматирование, совместимость с системами контроля версий и возможность работы на разных платформах сделали его предпочтительным выбором для писателей, разработчиков и издателей. Что делать, если у вас есть куча Word‑документов, которые вы хотите разместить в блоге, руководстве или на сайте? Ручное преобразование может стать утомительным и полным ошибок процессом. Здесь на помощь приходит библиотека Word‑to‑Markdown — открытая гема от Ben Balter.

Word to Markdown — мощный инструмент, автоматизирующий конвертацию .docx‑файлов в чистый, читаемый Markdown, экономя бесчисленные часы ручного форматирования. По сути это Ruby‑гема, интеллектуально преобразующая документы Microsoft Word в Markdown. Это не просто простой извлекатель текста; это продвинутый инструмент, понимающий внутреннюю структуру документа Word и переводящий её в соответствующий синтаксис Markdown. Это означает, что заголовки, списки, жирный и курсивный текст, а также более сложные элементы, такие как изображения и таблицы, сохраняются при конвертации. Основные возможности включают:

  • CLI‑инструмент для пакетного или одиночного преобразования файлов
  • Клиентская версия в браузере
  • Минимальные зависимости и быстрая работа
  • Разработано для создания читаемого Markdown с заголовками, списками, ссылками, изображениями и даже сносками
Previous Next

Начало работы с Word to Markdown

Рекомендуемый способ установки Word to Markdown — через RubyGems. Пожалуйста, используйте следующую команду для плавной установки.

Установка Word to Markdown через RubyGems

gem install word-to-markdown 
You can also download it directly from GitHub.

Конвертация Word Docx в Markdown через Ruby

Библиотека Word‑to‑Markdown обладает впечатляющим списком поддерживаемых конвертаций, делая её универсальным инструментом для широкого спектра задач. Гема парсит .docx‑файлы (формат Office Open XML) и более старые .doc‑файлы, извлекая текст, заголовки, списки, ссылки, таблицы, изображения и многое другое. Библиотека без проблем конвертирует базовое текстовое форматирование, гарантируя сохранение акцентов и структуры вашего контента. Стандартные абзацы конвертируются с правильными отступами, а текст, отформатированный в Word как жирный или курсив, преобразуется в соответствующий синтаксис Markdown без труда. Пример ниже демонстрирует, как разработчики могут конвертировать Word‑документы с базовым форматированием, используя Ruby‑библиотеку.

Как конвертировать Word Docx в Markdown с базовым форматированием через Ruby?

require 'word-to-markdown'

# Create a new WordToMarkdown object with the path to your .docx file
w2m = WordToMarkdown.new("path/to/your/document.docx")

# Convert the document to Markdown
markdown_output = w2m.to_s

# Print the output
puts markdown_output

Извлечение изображений и ссылок через Ruby

Изображения часто являются проблемным пунктом при миграции контента, но библиотека Word‑to‑Markdown обрабатывает их без труда. Библиотека включает полную поддержку извлечения изображений, таблиц и ссылок из Microsoft Word‑документов внутри Ruby‑приложений. Она извлекает изображения из документа Word и автоматически генерирует синтаксис Markdown для изображений (![alt text](image_url)). Пример ниже показывает, как разработчики могут извлекать изображения в каталог images/ и встраивать ссылки на изображения в вывод с помощью Ruby‑API.

Как автоматически обрабатывать изображения в документах Word через Ruby?

options = { extract_images: true, image_output_dir: "images" }
md_with_images = WordToMarkdown.convert("report.docx", **options)
puts md_with_images

Извлечение таблиц и гиперссылок из файла Word через Ruby

Таблицы — ещё один сложный элемент, который сложно конвертировать вручную. Открытая библиотека Word‑to‑Markdown отлично справляется с преобразованием таблиц Word в синтаксис таблиц Markdown на основе символов‑пайпов, используя всего пару строк кода. Все гиперссылки в оригинальном документе Word сохраняются и конвертируются в правильный синтаксис Markdown ([link text](url)).

 Русский