1. Productos
  2.   Procesamiento de textos
  3.   Ruby
  4.   Word to Markdown
 
  

Biblioteca Ruby gratuita para convertir Microsoft Word a Markdown

Gema Ruby de código abierto que permite a los desarrolladores leer y convertir documentos Microsoft Word (DOCX o DOC) en un archivo Markdown limpio y legible por humanos.

¿Qué es Word to Markdown?

Cuando se trata de crear contenido y construir sitios web, la forma en que estructures tu texto es crucial. Aunque Microsoft Word se usa ampliamente para crear documentos, Markdown se ha convertido en el formato preferido para la escritura web. Su formato sencillo, compatibilidad con el control de versiones y capacidad para trabajar en diferentes plataformas lo han convertido en la opción principal para escritores, desarrolladores y editores. ¿Qué haces cuando tienes un montón de documentos Word que deseas incluir en tu blog, guías o sitio? El proceso manual de convertirlos puede ser una pesadilla tediosa y propensa a errores. Aquí es donde la biblioteca Word‑to‑Markdown, una gema de código abierto de Ben Balter, entra en acción.

Word to Markdown es una herramienta poderosa que automatiza la conversión de archivos .docx a Markdown limpio y legible, ahorrándote innumerables horas de formato manual. En su núcleo, es una gema Ruby que convierte inteligentemente documentos Microsoft Word a Markdown. No es solo un extractor de texto simple; es una herramienta sofisticada que comprende la estructura subyacente de un documento Word y la traduce a la sintaxis Markdown correspondiente. Esto significa que encabezados, listas, texto en negrita y cursiva, e incluso elementos más complejos como imágenes y tablas se conservan durante el proceso de conversión. Las principales características incluyen:

  • Herramienta CLI para conversión por lotes o de archivo único
  • Versión cliente basada en navegador
  • Dependencias mínimas y tiempo de ejecución rápido
  • Diseñado para producir Markdown legible con encabezados, listas, enlaces, imágenes e incluso notas al pie
Previous Next

Comenzando con Word to Markdown

La forma recomendada de instalar Word to Markdown es usando RubyGems. Por favor, usa el siguiente comando para una instalación sin problemas.

Instalar Word to Markdown mediante RubyGems

gem install word-to-markdown 
You can also download it directly from GitHub.

Convertir Word Docx a Markdown mediante Ruby

La biblioteca Word‑to‑Markdown cuenta con una impresionante lista de conversiones compatibles, lo que la convierte en una herramienta versátil para una amplia gama de casos de uso. La gema analiza archivos .docx (formato Office Open XML) y archivos .doc más antiguos, extrayendo texto, encabezados, listas, enlaces, tablas, imágenes y más. La biblioteca convierte sin problemas el formato básico del texto, asegurando que el énfasis y la estructura de tu contenido permanezcan intactos. Los párrafos estándar se convierten con el espaciado correcto, y el texto formateado como negrita o cursiva en Word se traduce fácilmente a la sintaxis Markdown correspondiente. El siguiente ejemplo muestra cómo los desarrolladores pueden convertir documentos Word con formato de texto básico usando la biblioteca Ruby.

¿Cómo convertir Word Docx a Markdown con formato básico mediante Ruby?

require 'word-to-markdown'

# Create a new WordToMarkdown object with the path to your .docx file
w2m = WordToMarkdown.new("path/to/your/document.docx")

# Convert the document to Markdown
markdown_output = w2m.to_s

# Print the output
puts markdown_output

Extracción de Imágenes y Enlaces mediante Ruby

Las imágenes suelen ser un punto conflictivo en la migración de contenido, pero la biblioteca Word‑to‑Markdown las maneja con facilidad. La biblioteca incluye soporte completo para extraer imágenes, tablas y enlaces de documentos Microsoft Word dentro de aplicaciones Ruby. Extrae las imágenes del documento Word y genera automáticamente la sintaxis de imagen Markdown (![alt text](image_url)). El siguiente ejemplo muestra cómo los desarrolladores pueden extraer imágenes al directorio images/ e incrustar enlaces de imagen Markdown en la salida usando la API Ruby.

¿Cómo manejar imágenes en documentos Word automáticamente mediante Ruby?

options = { extract_images: true, image_output_dir: "images" }
md_with_images = WordToMarkdown.convert("report.docx", **options)
puts md_with_images

Extraer Tablas y Hipervínculos de Archivo Word mediante Ruby

Las tablas son otro elemento complejo que puede ser difícil de convertir manualmente. La biblioteca de código abierto Word‑to‑Markdown hace un excelente trabajo al convertir tablas de Word a la sintaxis de tabla basada en tuberías de Markdown con solo un par de líneas de código. Todos los hipervínculos del documento Word original se conservan y se convierten a la sintaxis correcta de enlace Markdown ([link text](url)).

 Español