1. Produktai
  2.   Tekstų apdorojimas
  3.   Ruby
  4.   Word to Markdown
 
  

Nemokama Ruby biblioteka Microsoft Word konvertavimui į Markdown

Atviro kodo Ruby gem, leidžiantis programišiams perskaityti ir konvertuoti Microsoft Word dokumentus (DOCX arba DOC) į švarų, žmonėms suprantamą Markdown failą.

Kas yra Word to Markdown?

Kuriant turinį ir kuriant svetaines, labai svarbu, kaip struktūruojate tekstą. Nors Microsoft Word plačiai naudojamas dokumentų kūrimui, Markdown tapo pagrindiniu formatų pasirinkimu internetiniam rašymui. Jo paprastas formatavimas, suderinamumas su versijų valdymu ir galimybė veikti skirtingose platformose padarė jį pirmaujančiu pasirinkimu rašytojams, programuotojams ir leidėjams. Bet ką daryti, kai turite daugybę Word dokumentų, kuriuos norite įtraukti į savo tinklaraštį, vadovus ar svetainę? Rankinis konvertavimo procesas gali tapti nuobodžiu ir klaidų kupinu košmaru. Čia į ateitį ateina Word-to-Markdown biblioteka, atviro kodo gem, sukurtas Ben Balter.

Word to Markdown yra galinga priemonė, automatizuojanti .docx failų konvertavimą į švarų, skaitomą Markdown, taupydama daugybę valandų, praleistų rankiniu formatu. Jo esmė – Ruby gem, kuris išmaniai konvertuoja Microsoft Word dokumentus į Markdown. Tai ne tik paprastas teksto išgavimo įrankis; tai išmanus įrankis, suprantantis Word dokumento struktūrą ir verčiantis ją į atitinkamą Markdown sintaksę. Tai reiškia, kad antraštės, sąrašai, pusjuodis ir kursyvas, taip pat sudėtingesni elementai, kaip vaizdai ir lentelės, išlieka konvertavimo proceso metu. Pagrindinės funkcijos:

  • CLI įrankis paketiniam arba vieno failo konvertavimui
  • Naršyklės kliento versija
  • Minimalios priklausomybės ir greitas vykdymas
  • Sukurtas generuoti skaitomą Markdown su antraštėmis, sąrašais, nuorodomis, vaizdais, net ir poraštėmis
Previous Next

Pradžia su Word to Markdown

Rekomenduojamas Word to Markdown įdiegimo būdas – naudoti RubyGems. Norėdami sklandžiai įdiegti, naudokite šią komandą.

Word to Markdown įdiegimas naudojant RubyGems

gem install word-to-markdown 
You can also download it directly from GitHub.

Word Docx konvertavimas į Markdown naudojant Ruby

Word-to-Markdown biblioteka pasižymi įspūdingu palaikomų konvertacijų sąrašu, todėl ji yra universalus įrankis įvairiems vartojimo atvejams. Gem analizuoja .docx failus (Office Open XML formatas) ir senesnius .doc failus, išgaunant tekstą, antraštes, sąrašus, nuorodas, lenteles, vaizdus ir pan. Biblioteka be vargo konvertuoja bazinį teksto formatavimą, užtikrinant, kad jūsų turinio akcentavimas ir struktūra išliktų nepakitusi. Standartiniai pastraipos konvertuojamos su tinkamu tarpu, o Word formatavimas, pvz., pusjuodis ar kursyvas, lengvai konvertuojamas į atitinkamą Markdown sintaksę. Toliau pateiktas pavyzdys parodo, kaip programuotojai gali konvertuoti Word dokumentus su baziniu teksto formatavimu naudojant Ruby biblioteką.

Kaip konvertuoti Word Docx į Markdown su baziniu formatavimu naudojant Ruby?

require 'word-to-markdown'

# Create a new WordToMarkdown object with the path to your .docx file
w2m = WordToMarkdown.new("path/to/your/document.docx")

# Convert the document to Markdown
markdown_output = w2m.to_s

# Print the output
puts markdown_output

Vaizdų ir nuorodų ištrauka naudojant Ruby

Vaizdai dažnai yra painus punktas turinio migracijoje, tačiau Word-to-Markdown biblioteka juos tvarko be vargo. Biblioteka suteikia pilną palaikymą vaizdų, lentelių ir nuorodų ištraukimui iš Microsoft Word dokumentų Ruby programų viduje. Biblioteka išgauna vaizdus iš Word dokumento ir automatiškai generuoja Markdown vaizdo sintaksę (![alt text](image_url)). Toliau pateiktas pavyzdys rodo, kaip programuotojai gali ištraukti vaizdus į images/ katalogą ir įterpti Markdown vaizdų nuorodas į išvesties trečiųjų šalių naudodami Ruby API.

Kaip automatiškai tvarkyti vaizdus Word dokumentuose naudojant Ruby?

options = { extract_images: true, image_output_dir: "images" }
md_with_images = WordToMarkdown.convert("report.docx", **options)
puts md_with_images

Lentelių ir hipersaitų ištrauka iš Word failo naudojant Ruby

Lentelės yra dar vienas sudėtingas elementas, kurį gali būti sunku konvertuoti rankiniu būdu. Atviro kodo Word-to-Markdown biblioteka puikiai konvertuoja Word lenteles į Markdown Vartotojo srities sintaksę, iš tik ką kelių eilučių kodo. Visi hipersaitai originaliame Word dokumente išlieka ir konvertuojami į tinkamą Markdown nuorodų sintaksę ([link text](url)).

 Lietuvių