Бесплатная Ruby‑библиотека для конвертации Microsoft Word в Markdown
Открытая Ruby‑гема, позволяющая разработчикам читать и конвертировать документы Microsoft Word (DOCX или DOC) в чистый, читаемый человеком файл Markdown.
Что такое Word to Markdown?
При создании контента и построении сайтов структура текста имеет критическое значение. Несмотря на то, что Microsoft Word широко используется для создания документов, в веб‑писании стал популярным Markdown. Его простое форматирование, совместимость с системами контроля версий и возможность работы на разных платформах сделали его предпочтительным выбором для писателей, разработчиков и издателей. Что делать, если у вас есть куча Word‑документов, которые вы хотите разместить в блоге, руководстве или на сайте? Ручное преобразование может стать утомительным и полным ошибок процессом. Здесь на помощь приходит библиотека Word‑to‑Markdown — открытая гема от Ben Balter.
Word to Markdown — мощный инструмент, автоматизирующий конвертацию .docx‑файлов в чистый, читаемый Markdown, экономя бесчисленные часы ручного форматирования. По сути это Ruby‑гема, интеллектуально преобразующая документы Microsoft Word в Markdown. Это не просто простой извлекатель текста; это продвинутый инструмент, понимающий внутреннюю структуру документа Word и переводящий её в соответствующий синтаксис Markdown. Это означает, что заголовки, списки, жирный и курсивный текст, а также более сложные элементы, такие как изображения и таблицы, сохраняются при конвертации. Основные возможности включают:
- CLI‑инструмент для пакетного или одиночного преобразования файлов
- Клиентская версия в браузере
- Минимальные зависимости и быстрая работа
- Разработано для создания читаемого Markdown с заголовками, списками, ссылками, изображениями и даже сносками
Начало работы с Word to Markdown
Рекомендуемый способ установки Word to Markdown — через RubyGems. Пожалуйста, используйте следующую команду для плавной установки.
Установка Word to Markdown через RubyGems
gem install word-to-markdown You can also download it directly from GitHub.Конвертация Word Docx в Markdown через Ruby
Библиотека Word‑to‑Markdown обладает впечатляющим списком поддерживаемых конвертаций, делая её универсальным инструментом для широкого спектра задач. Гема парсит .docx‑файлы (формат Office Open XML) и более старые .doc‑файлы, извлекая текст, заголовки, списки, ссылки, таблицы, изображения и многое другое. Библиотека без проблем конвертирует базовое текстовое форматирование, гарантируя сохранение акцентов и структуры вашего контента. Стандартные абзацы конвертируются с правильными отступами, а текст, отформатированный в Word как жирный или курсив, преобразуется в соответствующий синтаксис Markdown без труда. Пример ниже демонстрирует, как разработчики могут конвертировать Word‑документы с базовым форматированием, используя Ruby‑библиотеку.
Как конвертировать Word Docx в Markdown с базовым форматированием через Ruby?
require 'word-to-markdown'
# Create a new WordToMarkdown object with the path to your .docx file
w2m = WordToMarkdown.new("path/to/your/document.docx")
# Convert the document to Markdown
markdown_output = w2m.to_s
# Print the output
puts markdown_output
Извлечение изображений и ссылок через Ruby
Изображения часто являются проблемным пунктом при миграции контента, но библиотека Word‑to‑Markdown обрабатывает их без труда. Библиотека включает полную поддержку извлечения изображений, таблиц и ссылок из Microsoft Word‑документов внутри Ruby‑приложений. Она извлекает изображения из документа Word и автоматически генерирует синтаксис Markdown для изображений (). Пример ниже показывает, как разработчики могут извлекать изображения в каталог images/ и встраивать ссылки на изображения в вывод с помощью Ruby‑API.
Как автоматически обрабатывать изображения в документах Word через Ruby?
options = { extract_images: true, image_output_dir: "images" }
md_with_images = WordToMarkdown.convert("report.docx", **options)
puts md_with_images
Извлечение таблиц и гиперссылок из файла Word через Ruby
Таблицы — ещё один сложный элемент, который сложно конвертировать вручную. Открытая библиотека Word‑to‑Markdown отлично справляется с преобразованием таблиц Word в синтаксис таблиц Markdown на основе символов‑пайпов, используя всего пару строк кода. Все гиперссылки в оригинальном документе Word сохраняются и конвертируются в правильный синтаксис Markdown ([link text](url)).