1. produkty
  2.   Zpracování textu
  3.   Ruby
  4.   Word to Markdown
 
  

Free Ruby knihovna pro převod Microsoft Wordu na Markdown

Open Source Ruby Gem, který umožňuje vývojářům softwaru číst a převádět dokumenty Microsoft Word (DOCX nebo DOC) do čistého, čitelného Markdown souboru.

Co je Word to Markdown?

Při tvorbě obsahu a budování webových stránek je struktura textu klíčová. Ačkoliv je Microsoft Word široce používán pro tvorbu dokumentů, Markdown se stal preferovaným formátem pro webové psaní. Jeho jednoduché formátování, kompatibilita s verzovacím systémem a schopnost fungovat napříč různými platformami z něj učinily první volbu pro spisovatele, vývojáře a vydavatele. Co ale dělat, když máte hromadu Word dokumentů, které chcete zahrnout na svůj blog, do svých návodů nebo na svoje stránky? Ruční převod může být únavný a náchylný k chybám. Zde přichází na pomoc knihovna Word-to-Markdown, open-source gem od Bena Baltera.

Word to Markdown je výkonný nástroj, který automatizuje převod .docx souborů na čistý, čitelný Markdown a šetří vám nespočet hodin ručního formátování. V jádru je to Ruby gem, který inteligentně převádí Microsoft Word dokumenty do Markdownu. Není to jen jednoduchý extraktor textu; je to sofistikovaný nástroj, který rozumí podkladové struktuře Word dokumentu a převádí ji do odpovídající syntaxe Markdownu. To znamená, že nadpisy, seznamy, tučný a kurzívní text a dokonce i složitější prvky jako obrázky a tabulky jsou během konverze zachovány. Hlavní funkce zahrnují:

  • CLI nástroj pro dávkové nebo jednorázové převody souborů
  • Prohlížečová verze klienta
  • Minimální závislosti a rychlé spuštění
  • Navrženo pro tvorbu čitelného Markdownu s nadpisy, seznamy, odkazy, obrázky a dokonce i poznámkami pod čarou
Previous Next

Začínáme s Word to Markdown

Doporučený způsob instalace Word to Markdown je pomocí RubyGems. Použijte prosím následující příkaz pro hladkou instalaci.

Instalace Word to Markdown pomocí RubyGems

gem install word-to-markdown 
You can also download it directly from GitHub.

Převod Word Docx na Markdown pomocí Ruby

Knihovna Word-to-Markdown se může pochlubit působivým seznamem podporovaných konverzí, což z ní dělá univerzální nástroj pro širokou škálu případů použití. Gem parsuje .docx soubory (formát Office Open XML) a starší .doc soubory, extrahuje text, nadpisy, seznamy, odkazy, tabulky, obrázky a další. Knihovna bezproblémově převádí základní formátování textu a zajišťuje, aby důraz a struktura vašeho obsahu zůstaly nedotčeny. Standardní odstavce jsou převedeny se správným rozestupem a text formátovaný jako tučný nebo kurzívní ve Wordu bude snadno převeden na odpovídající Markdown syntaxi. Následující příklad ukazuje, jak vývojáři mohou pomocí Ruby knihovny převádět Word dokumenty s základním formátováním textu.

Jak převést Word Docx na Markdown se základním formátováním pomocí Ruby?

require 'word-to-markdown'

# Create a new WordToMarkdown object with the path to your .docx file
w2m = WordToMarkdown.new("path/to/your/document.docx")

# Convert the document to Markdown
markdown_output = w2m.to_s

# Print the output
puts markdown_output

Extrahování obrázků a odkazů pomocí Ruby

Obrázky jsou často bolestivým bodem při migraci obsahu, ale knihovna Word-to-Markdown je zpracuje s lehkostí. Knihovna zahrnuje kompletní podporu pro extrahování obrázků, tabulek a odkazů z Microsoft Word dokumentů uvnitř Ruby aplikací. Knihovna extrahuje obrázky z Word dokumentu a automaticky generuje Markdown syntaxi pro obrázek (![alt text](image_url)). Následující příklad ukazuje, jak vývojáři mohou extrahovat obrázky do adresáře images/ a vložit odkazy na obrázky ve výstupu pomocí Ruby API.

Jak automaticky zpracovat obrázky v Word dokumentech pomocí Ruby?

options = { extract_images: true, image_output_dir: "images" }
md_with_images = WordToMarkdown.convert("report.docx", **options)
puts md_with_images

Extrahování tabulek a hyperodkazů z Word souboru pomocí Ruby

Tabulky jsou další složitý prvek, který může být obtížné převést ručně. Open source knihovna Word-to-Markdown odvádí vynikající práci při převodu Word tabulek do tabulkové syntaxe Markdownu založené na svislích čarách s pouhým pár řádky kódu. Všechny hypertextové odkazy v původním Word dokumentu jsou zachovány a převedeny do správné Markdown syntaxe odkazů ([link text](url)).

 Čeština