Free Ruby knihovna pro převod Microsoft Wordu na Markdown
Open Source Ruby Gem, který umožňuje vývojářům softwaru číst a převádět dokumenty Microsoft Word (DOCX nebo DOC) do čistého, čitelného Markdown souboru.
Co je Word to Markdown?
Při tvorbě obsahu a budování webových stránek je struktura textu klíčová. Ačkoliv je Microsoft Word široce používán pro tvorbu dokumentů, Markdown se stal preferovaným formátem pro webové psaní. Jeho jednoduché formátování, kompatibilita s verzovacím systémem a schopnost fungovat napříč různými platformami z něj učinily první volbu pro spisovatele, vývojáře a vydavatele. Co ale dělat, když máte hromadu Word dokumentů, které chcete zahrnout na svůj blog, do svých návodů nebo na svoje stránky? Ruční převod může být únavný a náchylný k chybám. Zde přichází na pomoc knihovna Word-to-Markdown, open-source gem od Bena Baltera.
Word to Markdown je výkonný nástroj, který automatizuje převod .docx souborů na čistý, čitelný Markdown a šetří vám nespočet hodin ručního formátování. V jádru je to Ruby gem, který inteligentně převádí Microsoft Word dokumenty do Markdownu. Není to jen jednoduchý extraktor textu; je to sofistikovaný nástroj, který rozumí podkladové struktuře Word dokumentu a převádí ji do odpovídající syntaxe Markdownu. To znamená, že nadpisy, seznamy, tučný a kurzívní text a dokonce i složitější prvky jako obrázky a tabulky jsou během konverze zachovány. Hlavní funkce zahrnují:
- CLI nástroj pro dávkové nebo jednorázové převody souborů
- Prohlížečová verze klienta
- Minimální závislosti a rychlé spuštění
- Navrženo pro tvorbu čitelného Markdownu s nadpisy, seznamy, odkazy, obrázky a dokonce i poznámkami pod čarou
Začínáme s Word to Markdown
Doporučený způsob instalace Word to Markdown je pomocí RubyGems. Použijte prosím následující příkaz pro hladkou instalaci.
Instalace Word to Markdown pomocí RubyGems
gem install word-to-markdown You can also download it directly from GitHub.Převod Word Docx na Markdown pomocí Ruby
Knihovna Word-to-Markdown se může pochlubit působivým seznamem podporovaných konverzí, což z ní dělá univerzální nástroj pro širokou škálu případů použití. Gem parsuje .docx soubory (formát Office Open XML) a starší .doc soubory, extrahuje text, nadpisy, seznamy, odkazy, tabulky, obrázky a další. Knihovna bezproblémově převádí základní formátování textu a zajišťuje, aby důraz a struktura vašeho obsahu zůstaly nedotčeny. Standardní odstavce jsou převedeny se správným rozestupem a text formátovaný jako tučný nebo kurzívní ve Wordu bude snadno převeden na odpovídající Markdown syntaxi. Následující příklad ukazuje, jak vývojáři mohou pomocí Ruby knihovny převádět Word dokumenty s základním formátováním textu.
Jak převést Word Docx na Markdown se základním formátováním pomocí Ruby?
require 'word-to-markdown'
# Create a new WordToMarkdown object with the path to your .docx file
w2m = WordToMarkdown.new("path/to/your/document.docx")
# Convert the document to Markdown
markdown_output = w2m.to_s
# Print the output
puts markdown_output
Extrahování obrázků a odkazů pomocí Ruby
Obrázky jsou často bolestivým bodem při migraci obsahu, ale knihovna Word-to-Markdown je zpracuje s lehkostí. Knihovna zahrnuje kompletní podporu pro extrahování obrázků, tabulek a odkazů z Microsoft Word dokumentů uvnitř Ruby aplikací. Knihovna extrahuje obrázky z Word dokumentu a automaticky generuje Markdown syntaxi pro obrázek (). Následující příklad ukazuje, jak vývojáři mohou extrahovat obrázky do adresáře images/ a vložit odkazy na obrázky ve výstupu pomocí Ruby API.
Jak automaticky zpracovat obrázky v Word dokumentech pomocí Ruby?
options = { extract_images: true, image_output_dir: "images" }
md_with_images = WordToMarkdown.convert("report.docx", **options)
puts md_with_images
Extrahování tabulek a hyperodkazů z Word souboru pomocí Ruby
Tabulky jsou další složitý prvek, který může být obtížné převést ručně. Open source knihovna Word-to-Markdown odvádí vynikající práci při převodu Word tabulek do tabulkové syntaxe Markdownu založené na svislích čarách s pouhým pár řádky kódu. Všechny hypertextové odkazy v původním Word dokumentu jsou zachovány a převedeny do správné Markdown syntaxe odkazů ([link text](url)).