1. Produtos
  2.   Processamento de texto
  3.   Ruby
  4.   Word to Markdown
 
  

Biblioteca Ruby grátis para converter Microsoft Word para Markdown

Gem Ruby Open Source que capacita desenvolvedores a ler e converter documentos Microsoft Word (DOCX ou DOC) em um arquivo Markdown limpo e legível por humanos.

O que é Word to Markdown?

Quando se trata de criar conteúdo e construir sites, a forma como você estrutura seu texto é crucial. Embora o Microsoft Word seja amplamente usado para criar documentos, o Markdown emergiu como o formato preferido para escrita na web. Seu formato simples, compatibilidade com controle de versão e capacidade de funcionar em diferentes plataformas o tornaram a escolha principal para escritores, desenvolvedores e publicadores. Mas o que fazer quando você tem um monte de documentos Word que deseja incluir no seu blog, guias ou site? O processo manual de convertê-los pode ser um pesadelo demorado e propenso a erros. É aqui que a biblioteca Word‑to‑Markdown, um gem open‑source de Ben Balter, entra em ação.

Word to Markdown é uma ferramenta poderosa que automatiza a conversão de arquivos .docx para Markdown limpo e legível, economizando inúmeras horas de formatação manual. Na sua essência, é um gem Ruby que converte inteligentemente documentos Microsoft Word em Markdown. Não é apenas um extrator de texto simples; é uma ferramenta sofisticada que compreende a estrutura subjacente de um documento Word e a traduz para a sintaxe Markdown correspondente. Isso significa que cabeçalhos, listas, texto em negrito e itálico, e até elementos mais complexos como imagens e tabelas são preservados durante o processo de conversão. As principais funcionalidades incluem:

  • Ferramenta CLI para conversão em lote ou de arquivo único
  • Versão cliente baseada em navegador
  • Dependências mínimas e tempo de execução rápido
  • Projetado para produzir Markdown legível com cabeçalhos, listas, links, imagens e até notas de rodapé
Previous Next

Começando com Word to Markdown

A forma recomendada de instalar Word to Markdown é usando RubyGems. Por favor, use o comando abaixo para uma instalação tranquila.

Instalar Word to Markdown via RubyGems

gem install word-to-markdown 
You can also download it directly from GitHub.

Converter Word Docx para Markdown via Ruby

A biblioteca Word‑to‑Markdown oferece uma lista impressionante de conversões suportadas, tornando‑a uma ferramenta versátil para uma ampla gama de casos de uso. O gem analisa arquivos .docx (formato Office Open XML) e arquivos .doc mais antigos, extraindo texto, cabeçalhos, listas, links, tabelas, imagens e mais. A biblioteca converte perfeitamente a formatação de texto básica, garantindo que a ênfase e a estrutura do seu conteúdo permaneçam intactas. Parágrafos padrão são convertidos com o espaçamento correto, bem como texto formatado como negrito ou itálico no Word será convertido para a sintaxe Markdown correspondente com facilidade. O exemplo a seguir demonstra como desenvolvedores podem converter documentos Word com formatação básica de texto usando a biblioteca Ruby.

Como converter Word Docx para Markdown com formatação básica via Ruby?

require 'word-to-markdown'

# Create a new WordToMarkdown object with the path to your .docx file
w2m = WordToMarkdown.new("path/to/your/document.docx")

# Convert the document to Markdown
markdown_output = w2m.to_s

# Print the output
puts markdown_output

Extração de Imagens e Links via Ruby

Imagens são frequentemente um ponto problemático na migração de conteúdo, mas a biblioteca Word‑to‑Markdown as gerencia com facilidade. A biblioteca inclui suporte completo para extrair imagens, tabelas e links de documentos Microsoft Word em aplicações Ruby. Ela extrai as imagens do documento Word e gera automaticamente a sintaxe de imagem Markdown (![texto alternativo](url_da_imagem)). O exemplo a seguir demonstra como desenvolvedores podem extrair imagens para o diretório images/ e incorporar links de imagens Markdown na saída usando a API Ruby.

Como lidar com imagens em documentos Word automaticamente via Ruby?

options = { extract_images: true, image_output_dir: "images" }
md_with_images = WordToMarkdown.convert("report.docx", **options)
puts md_with_images

Extrair Tabelas e Hiperlinks de Arquivo Word via Ruby

Tabelas são outro elemento complexo que pode ser difícil de converter manualmente. A biblioteca open source Word‑to‑Markdown faz um excelente trabalho ao converter tabelas Word para a sintaxe de tabela baseada em pipe do Markdown com apenas algumas linhas de código. Todos os hiperlinks no documento Word original são preservados e convertidos para a sintaxe correta de link Markdown ([texto do link](url)).

 Português