1. 产品
  2.   字处理
  3.   Ruby
  4.   Word to Markdown
 
  

免费 Ruby 库,用于将 Microsoft Word 转换为 Markdown

开源 Ruby Gem,使开发者能够读取并将 Microsoft Word 文档(DOCX 或 DOC)转换为干净、易读的 Markdown 文件。

什么是 Word to Markdown?

在创建内容和搭建网站时,文本结构至关重要。虽然 Microsoft Word 被广泛用于创建文档,但 Markdown 已成为网络写作的首选格式。其简单的格式、与版本控制的兼容性以及跨平台的工作能力,使其成为作家、开发者和出版者的首选。但当您有一堆 Word 文档想要加入博客、指南或网站时,该怎么办?手动转换过程非常繁琐且易出错。这时,Ben Balter 开源的 Word‑to‑Markdown gem 就出现了,帮助您解决这个问题。

Word to Markdown 是一个强大的工具,可自动将 .docx 文件转换为干净、易读的 Markdown,省去您大量手动格式化的时间。它本质上是一个智能的 Ruby gem,能够将 Microsoft Word 文档转换为 Markdown。它不仅是一个简单的文本提取器,而是能够理解 Word 文档底层结构并转换为相应的 Markdown 语法的高级工具。这意味着标题、列表、粗体和斜体文本,甚至更复杂的元素如图像和表格,都能在转换过程中被保留下来。主要功能包括:

  • 用于批量或单文件转换的 CLI 工具
  • 基于浏览器的客户端版本
  • 最小依赖和快速运行时
  • 旨在生成带有标题、列表、链接、图像乃至脚注的可读 Markdown
Previous Next

Word to Markdown 入门指南

推荐的安装方式是使用 RubyGems。请使用以下命令进行顺畅安装。

通过 RubyGems 安装 Word to Markdown

gem install word-to-markdown 
You can also download it directly from GitHub.

使用 Ruby 将 Word Docx 转换为 Markdown

Word‑to‑Markdown 库拥有令人印象深刻的支持转换列表,使其成为适用于各种场景的多功能工具。该 gem 能解析 .docx(Office Open XML 格式)以及旧的 .doc 文件,提取文本、标题、列表、链接、表格、图像等。库能够无缝转换基本的文本格式,确保内容的强调和结构保持完好。标准段落会正确间距,而 Word 中的粗体或斜体文本也能轻松转换为相应的 Markdown 语法。以下示例展示了开发者如何使用 Ruby 库将带有基本文本格式的 Word 文档转换为 Markdown。

如何使用 Ruby 将 Word Docx 转换为基本格式的 Markdown?

require 'word-to-markdown'

# Create a new WordToMarkdown object with the path to your .docx file
w2m = WordToMarkdown.new("path/to/your/document.docx")

# Convert the document to Markdown
markdown_output = w2m.to_s

# Print the output
puts markdown_output

通过 Ruby 提取图像和链接

图像在内容迁移中常常是痛点,但 Word‑to‑Markdown 库能够轻松处理它们。该库在 Ruby 应用中提供完整的图像、表格和链接提取功能。它会从 Word 文档中提取图像,并自动生成 Markdown 图像语法 (![alt text](image_url))。以下示例展示了开发者如何将图像提取到 images/ 目录,并使用 Ruby API 将 Markdown 图像链接嵌入输出。

如何在 Ruby 中自动处理 Word 文档中的图像?

options = { extract_images: true, image_output_dir: "images" }
md_with_images = WordToMarkdown.convert("report.docx", **options)
puts md_with_images

通过 Ruby 从 Word 文件中提取表格和超链接

表格是另一个难以手动转换的复杂元素。开源的 Word‑to‑Markdown 库可以用几行代码将 Word 表格转换为 Markdown 的管道(pipe)表格语法,表现出色。原始 Word 文档中的所有超链接都会被保留并转换为正确的 Markdown 链接语法([link text](url))。

 中国人