کتابخانه رایگان روبی برای تبدیل مایکروسافت ورد به مارک‌داون

جِم منبع‌باز روبی که به توسعه‌دهندگان نرم‌افزار توان می‌دهد اسناد مایکروسافت ورد (DOCX یا DOC) را به فایل مارک‌داون تمیز و قابل خواندن برای انسان تبدیل کنند.

Word to Markdown چیست؟

در زمینه تولید محتوا و ساخت وب‌سایت، ساختاردهی متن اهمیت دارد. اگرچه Microsoft Word برای ایجاد اسناد به‌کار می‌رود، مارک‌داون به‌عنوان فرمت اصلی نوشتن وب شناخته شده است. قالب ساده، سازگاری با کنترل نسخه و قابلیت کار بر روی پلتفرم‌های مختلف، آن را برای نویسندگان، توسعه‌دهندگان و انتشارات محبوب کرده است. اما وقتی تعدادی سند Word دارید که می‌خواهید در وبلاگ، راهنما یا سایت خود استفاده کنید، تبدیل دستی آن‌ها می‌تواند کار دردسرساز و پرخطایی باشد. اینجا کتابخانه Word-to-Markdown، یک جِم منبع‌باز توسط بن بالتر، به کمک می‌آید.

Word to Markdown یک ابزار قدرتمند است که تبدیل .docx را به مارک‌داون تمیز و خوانا خودکار می‌کند و ساعت‌ها کار دستی قالب‌بندی را برای شما صرفه‌جویی می‌کند. در هستهٔ خود، این یک جِم روبی است که به‌صورت هوشمند اسناد مایکروسافت ورد را به مارک‌داون تبدیل می‌کند. این تنها یک استخراج‌کنندهٔ متن ساده نیست؛ یک ابزار پیشرفته است که ساختار پایه‌ای سند ورد را درک می‌کند و به سینتکس متناظر مارک‌داون ترجمه می‌کند. به این معنی که عناوین، فهرست‌ها، متن بولد و ایتالیک، و حتی عناصر پیچیده‌تری مثل تصاویر و جدول‌ها در طول فرآیند تبدیل حفظ می‌شوند. ویژگی‌های اصلی شامل:

  • ابزار CLI برای تبدیل دسته‌ای یا تک‌فایلی
  • نسخهٔ کاربری مبتنی بر مرورگر
  • وابستگی‌های کم و زمان اجرا سریع
  • طراحی شده برای تولید مارک‌داون خوانا با عناوین، فهرست‌ها، لینک‌ها، تصاویر، حتی پاورقی‌ها
Previous Next

شروع کار با Word to Markdown

روش پیشنهادی برای نصب Word to Markdown استفاده از RubyGems است. لطفاً برای نصب روان، فرمان زیر را اجرا کنید.

نصب Word to Markdown از طریق RubyGems

gem install word-to-markdown 
You can also download it directly from GitHub.

تبدیل Word Docx به Markdown با روبی

کتابخانه Word-to-Markdown فهرست چشم‌گیری از تبدیل‌های پشتیبانی‌شده دارد و این ابزار را برای طیف وسیعی از موارد کاربردی قابل‌سفارشی می‌کند. این جِم فایل‌های .docx (قالب Office Open XML) و فایل‌های قدیمی .doc را تجزیه می‌کند و متن، عناوین، فهرست‌ها، لینک‌ها، جدول‌ها، تصاویر و موارد دیگر را استخراج می‌نماید. کتابخانه به‌صورت یکپارچه قالب‌بندی متن پایه را تبدیل می‌کند و اطمینان می‌دهد که تأکیدها و ساختار محتوا دست‌نخورده باقی می‌مانند. پاراگراف‌های استاندارد با فاصله صحیح و همچنین متنی که در Word به صورت بولد یا ایتالیک فرم‌داده شده است، به‌راحتی به سینتکس متناظر مارک‌داون تبدیل می‌شوند. مثال زیر نشان می‌دهد چگونه توسعه‌دهندگان نرم‌افزار می‌توانند اسناد ورد را با قالب‌بندی متن پایه با استفاده از کتابخانه روبی تبدیل کنند.

چگونه Word Docx را به Markdown با قالب‌بندی پایه با روبی تبدیل کنیم؟

require 'word-to-markdown'

# Create a new WordToMarkdown object with the path to your .docx file
w2m = WordToMarkdown.new("path/to/your/document.docx")

# Convert the document to Markdown
markdown_output = w2m.to_s

# Print the output
puts markdown_output

استخراج تصویر و لینک‌ها با روبی

تصاویر اغلب نقطه دردناک در مهاجرت محتوا هستند، اما کتابخانه Word-to-Markdown آن‌ها را به‌راحتی مدیریت می‌کند. این کتابخانه پشتیبانی کامل از استخراج تصاویر، جدول‌ها و لینک‌ها از اسناد Microsoft Word درون برنامه‌های روبی فراهم کرده است. کتابخانه تصاویر را از سند ورد استخراج می‌کند و به‌طور خودکار سینتکس تصویر مارک‌داون (![متن جایگزین](آدرس_تصویر)) را تولید می‌نماید. مثال زیر نشان می‌دهد چگونه توسعه‌دهندگان می‌توانند تصاویر را به پوشه images/ استخراج کرده و لینک‌های تصویر مارک‌داون را در خروجی با استفاده از API روبی جاسازی کنند.

چگونه تصاویر در اسناد Word را به‌صورت خودکار با روبی مدیریت کنیم؟

options = { extract_images: true, image_output_dir: "images" }
md_with_images = WordToMarkdown.convert("report.docx", **options)
puts md_with_images

استخراج جدول‌ها و هایپرلینک‌ها از فایل Word با روبی

جدول‌ها عنصر پیچیده دیگری هستند که تبدیل دستی آنها می‌تواند دشوار باشد. کتابخانه منبع‌باز Word-to-Markdown کار عالی‌ای در تبدیل جدول‌های ورد به سینتکس جدول‌های مبتنی بر لوله مارک‌داون با تنها چند خط کد انجام می‌دهد. تمام هایپرلینک‌های موجود در سند ورد اصلی حفظ شده و به سینتکس لینک مارک‌داون صحیح ([متن لینک](url)) تبدیل می‌شوند.

 فارسی