کتابخانه رایگان روبی برای تبدیل مایکروسافت ورد به مارکداون
جِم منبعباز روبی که به توسعهدهندگان نرمافزار توان میدهد اسناد مایکروسافت ورد (DOCX یا DOC) را به فایل مارکداون تمیز و قابل خواندن برای انسان تبدیل کنند.
Word to Markdown چیست؟
در زمینه تولید محتوا و ساخت وبسایت، ساختاردهی متن اهمیت دارد. اگرچه Microsoft Word برای ایجاد اسناد بهکار میرود، مارکداون بهعنوان فرمت اصلی نوشتن وب شناخته شده است. قالب ساده، سازگاری با کنترل نسخه و قابلیت کار بر روی پلتفرمهای مختلف، آن را برای نویسندگان، توسعهدهندگان و انتشارات محبوب کرده است. اما وقتی تعدادی سند Word دارید که میخواهید در وبلاگ، راهنما یا سایت خود استفاده کنید، تبدیل دستی آنها میتواند کار دردسرساز و پرخطایی باشد. اینجا کتابخانه Word-to-Markdown، یک جِم منبعباز توسط بن بالتر، به کمک میآید.
Word to Markdown یک ابزار قدرتمند است که تبدیل .docx را به مارکداون تمیز و خوانا خودکار میکند و ساعتها کار دستی قالببندی را برای شما صرفهجویی میکند. در هستهٔ خود، این یک جِم روبی است که بهصورت هوشمند اسناد مایکروسافت ورد را به مارکداون تبدیل میکند. این تنها یک استخراجکنندهٔ متن ساده نیست؛ یک ابزار پیشرفته است که ساختار پایهای سند ورد را درک میکند و به سینتکس متناظر مارکداون ترجمه میکند. به این معنی که عناوین، فهرستها، متن بولد و ایتالیک، و حتی عناصر پیچیدهتری مثل تصاویر و جدولها در طول فرآیند تبدیل حفظ میشوند. ویژگیهای اصلی شامل:
- ابزار CLI برای تبدیل دستهای یا تکفایلی
- نسخهٔ کاربری مبتنی بر مرورگر
- وابستگیهای کم و زمان اجرا سریع
- طراحی شده برای تولید مارکداون خوانا با عناوین، فهرستها، لینکها، تصاویر، حتی پاورقیها
شروع کار با Word to Markdown
روش پیشنهادی برای نصب Word to Markdown استفاده از RubyGems است. لطفاً برای نصب روان، فرمان زیر را اجرا کنید.
نصب Word to Markdown از طریق RubyGems
gem install word-to-markdown You can also download it directly from GitHub.تبدیل Word Docx به Markdown با روبی
کتابخانه Word-to-Markdown فهرست چشمگیری از تبدیلهای پشتیبانیشده دارد و این ابزار را برای طیف وسیعی از موارد کاربردی قابلسفارشی میکند. این جِم فایلهای .docx (قالب Office Open XML) و فایلهای قدیمی .doc را تجزیه میکند و متن، عناوین، فهرستها، لینکها، جدولها، تصاویر و موارد دیگر را استخراج مینماید. کتابخانه بهصورت یکپارچه قالببندی متن پایه را تبدیل میکند و اطمینان میدهد که تأکیدها و ساختار محتوا دستنخورده باقی میمانند. پاراگرافهای استاندارد با فاصله صحیح و همچنین متنی که در Word به صورت بولد یا ایتالیک فرمداده شده است، بهراحتی به سینتکس متناظر مارکداون تبدیل میشوند. مثال زیر نشان میدهد چگونه توسعهدهندگان نرمافزار میتوانند اسناد ورد را با قالببندی متن پایه با استفاده از کتابخانه روبی تبدیل کنند.
چگونه Word Docx را به Markdown با قالببندی پایه با روبی تبدیل کنیم؟
require 'word-to-markdown'
# Create a new WordToMarkdown object with the path to your .docx file
w2m = WordToMarkdown.new("path/to/your/document.docx")
# Convert the document to Markdown
markdown_output = w2m.to_s
# Print the output
puts markdown_output
استخراج تصویر و لینکها با روبی
تصاویر اغلب نقطه دردناک در مهاجرت محتوا هستند، اما کتابخانه Word-to-Markdown آنها را بهراحتی مدیریت میکند. این کتابخانه پشتیبانی کامل از استخراج تصاویر، جدولها و لینکها از اسناد Microsoft Word درون برنامههای روبی فراهم کرده است. کتابخانه تصاویر را از سند ورد استخراج میکند و بهطور خودکار سینتکس تصویر مارکداون () را تولید مینماید. مثال زیر نشان میدهد چگونه توسعهدهندگان میتوانند تصاویر را به پوشه images/ استخراج کرده و لینکهای تصویر مارکداون را در خروجی با استفاده از API روبی جاسازی کنند.
چگونه تصاویر در اسناد Word را بهصورت خودکار با روبی مدیریت کنیم؟
options = { extract_images: true, image_output_dir: "images" }
md_with_images = WordToMarkdown.convert("report.docx", **options)
puts md_with_images
استخراج جدولها و هایپرلینکها از فایل Word با روبی
جدولها عنصر پیچیده دیگری هستند که تبدیل دستی آنها میتواند دشوار باشد. کتابخانه منبعباز Word-to-Markdown کار عالیای در تبدیل جدولهای ورد به سینتکس جدولهای مبتنی بر لوله مارکداون با تنها چند خط کد انجام میدهد. تمام هایپرلینکهای موجود در سند ورد اصلی حفظ شده و به سینتکس لینک مارکداون صحیح ([متن لینک](url)) تبدیل میشوند.