Безкоштовна Ruby бібліотека для конвертації Microsoft Word у Markdown
Відкрита Ruby Gem, яка дозволяє розробникам читати і конвертувати документи Microsoft Word (DOCX або DOC) у чистий, зрозумілий людям Markdown файл.
Що таке Word to Markdown?
Створюючи контент і будуючи веб‑сайти, важливо правильно структурувати текст. Хоча Microsoft Word широко використовується для створення документів, Markdown став найпопулярнішим форматом для веб‑писем. Його просте форматування, сумісність з системами контролю версій та можливість працювати на різних платформах зробили його улюбленим вибором для письменників, розробників і видавців. Але що робити, коли у вас є багато Word‑документів, які ви хочете включити у свій блог, посібники або на сайт? Ручна конвертація може стати нудним і схильним до помилок процесом. Тут на допомогу приходить бібліотека Word‑to‑Markdown, відкритий gem від Ben Balter.
Word to Markdown — потужний інструмент, який автоматизує конвертацію .docx файлів у чистий, читабельний Markdown, заощаджуючи вам безліч годин ручного форматування. У своїй суті це Ruby‑gem, який інтелектуально конвертує документи Microsoft Word у Markdown. Це не просто простий екстрактор тексту; це складний інструмент, який розуміє внутрішню структуру Word‑документа і переводить її у відповідний синтаксис Markdown. Це означає, що заголовки, списки, жирний та курсивний текст, а також більш складні елементи, такі як зображення та таблиці, зберігаються під час процесу конвертації. Основні функції включають:
- CLI‑інструмент для пакетної або одиночної конвертації файлів
- Версія клієнта на базі браузера
- Мінімальні залежності та швидке виконання
- Розроблено для створення читабельного Markdown з заголовками, списками, посиланнями, зображеннями та навіть підваликами
Початок роботи з Word to Markdown
Рекомендований спосіб встановлення Word to Markdown — використання RubyGems. Будь ласка, скористайтеся наступною командою для плавного встановлення.
Встановлення Word to Markdown через RubyGems
gem install word-to-markdown You can also download it directly from GitHub.Конвертуйте Word Docx у Markdown за допомогою Ruby
Бібліотека Word‑to‑Markdown має вражаючий список підтримуваних конверсій, що робить її універсальним інструментом для широкого спектру варіантів використання. Gem аналізує .docx файли (формат Office Open XML) і старі .doc файли, видобуваючи текст, заголовки, списки, посилання, таблиці, зображення та інше. Бібліотека безшовно конвертує базове форматування тексту, забезпечуючи збереження акценту та структури вашого контенту. Стандартні абзаци конвертуються з правильними інтервалами, а текст, відформатований у Word у вигляді жирного або курсивного, легко конвертується у відповідний синтаксис Markdown. Наведений приклад демонструє, як розробники можуть конвертувати Word документи з базовим форматуванням тексту, використовуючи Ruby‑бібліотеку.
Як конвертувати Word Docx у Markdown з базовим форматуванням за допомогою Ruby?
require 'word-to-markdown'
# Create a new WordToMarkdown object with the path to your .docx file
w2m = WordToMarkdown.new("path/to/your/document.docx")
# Convert the document to Markdown
markdown_output = w2m.to_s
# Print the output
puts markdown_output
Видобуток зображень та посилань за допомогою Ruby
Зображення часто є болючою точкою під час міграції контенту, але бібліотека Word‑to‑Markdown обробляє їх без проблем. Бібліотека включає повну підтримку видобутку зображень, таблиць та посилань з документів Microsoft Word у Ruby‑застосунках. Бібліотека видобуває зображення з Word‑документа та автоматично генерує Markdown‑синтаксис зображення (). Наведений приклад демонструє, як розробники можуть зберігати зображення у каталозі images/ та вбудовувати посилання на зображення у Markdown‑вихід за допомогою Ruby‑API.
Як автоматично обробляти зображення у Word документах за допомогою Ruby?
options = { extract_images: true, image_output_dir: "images" }
md_with_images = WordToMarkdown.convert("report.docx", **options)
puts md_with_images
Видобуток таблиць та гіперпосилань з Word файлу за допомогою Ruby
Таблиці — ще один складний елемент, який важко конвертувати вручну. Відкрита бібліотека Word‑to‑Markdown виконує відмінну роботу з конвертації таблиць Word у синтаксис таблиць Markdown на основі pipe‑символів з лише кількома рядками коду. Усі гіперпосилання в оригінальному Word‑документі зберігаються і конвертуються у правильний синтаксис Markdown посилань ([link text](url)).