API Python برای تبدیل محتوای Word DOCX به HTML آماده برای وب

کتابخانه منبع باز Python که به توسعه‌دهندگان نرم‌افزار امکان خواندن و تبدیل محتوای Microsoft Word DOCX به HTML آماده برای وب درون برنامه‌های Python را می‌دهد.

Python-Mammoth چیست؟

تبدیل اسناد به یک ضرورت حیاتی برای توسعه‌دهندگان نرم‌افزار تبدیل شده است که برنامه‌هایی می‌سازند که با متن در محیط دیجیتال امروز تعامل دارند. انتقال روان بین فرمت‌های فایل می‌تواند سازگاری را تضمین کرده و زمان را هنگام کار بر روی یک پلتفرم آموزش آنلاین، ابزار خودکارسازی اسناد یا سیستم مدیریت محتوا (CMS) ذخیره کند. یکی از کتابخانه‌های قدرتمند در این حوزه Python-Mammoth است، یک کتابخانه منبع باز Python که به‌طور خاص برای تبدیل اسناد Microsoft Word (DOCX) به HTML تمیز و معنایی طراحی شده. این کتابخانه خروجی HTML معنایی، استخراج تصاویر از فایل‌های DOCX، نگاشت‌های سفارشی سبک، هشدارهای مفید درباره عناصر پشتیبانی‌نشده یا مشکلات احتمالی قالب‌بندی، ادغام آسان با برنامه‌های مبتنی بر Python و موارد بیشمار دیگر را پشتیبانی می‌کند.

Python-Mammoth توسط مایکل ویلیامسون توسعه یافته است؛ یک کتابخانه منبع باز Python که بر استخراج محتوای اساسی از اسناد DOCX و تبدیل آن‌ها به HTML ساختار یافته متمرکز است. هدف اصلی آن تولید خروجی HTML تمیز و معنایی بدون استایل‌های درون‌خطی غیرضروری یا نشانه‌گذاری شلوغ است. برخلاف بسیاری از ابزارهای دیگر تبدیل سند، این کتابخانه بر سادگی و دقت تمرکز دارد و معناهای سند مانند سرعنوان‌ها، پاراگراف‌ها و فهرست‌ها را حفظ می‌کند به‌جای تمرکز بر نمایش پیکسل‌به‌پیکسل. این کتابخانه پشتیبانی می‌کند از تولید گزارش‌های HTML تمیز و سازگار از قالب‌های Word. تمرکز بر سادگی، خروجی تمیز و قابلیت گسترش، آن را گزینه‌ای عالی برای توسعه‌دهندگانی که به دنبال راه‌حل‌های تبدیل سند هستند، می‌سازد.

Previous Next

شروع کار با Python-Mammoth

Python-Mammoth بر روی PyPI میزبانی می‌شود، بنابراین نصب آن بسیار ساده است. می‌توانید با pip و استفاده از فرمان زیر آن را نصب کنید.

نصب Python-Mammoth با فرمان pip

 pip install mammoth 

تبدیل Word DOCX به HTML با Python

کتابخانه منبع باز Python-Mammoth کار را برای توسعه‌دهندگان نرم‌افزار آسان می‌کند تا فایل Microsoft Word DOCX را درون برنامه‌های Python بارگذاری و به HTML تبدیل کنند. یکی از ویژگی‌های برجسته این کتابخانه توانایی آن در تولید خروجی HTML تمیز و معنایی است. این کتابخانه از درج استایل‌های درون‌خطی غیرضروری یا تگ‌های مالکیتی جلوگیری می‌کند و اطمینان می‌دهد که HTML نهایی سبک‌وزن و آسان برای استایل‌دهی با CSS باقی بماند. مثال زیر نشان می‌دهد چگونه محتویات DOCX به HTML تبدیل می‌شود، آماده برای نمایش یا استایل‌دهی بیشتر.

چگونه محتوای DOCX را به HTML تبدیل کنیم با API Python؟

 import mammoth

with open("document.docx", "rb") as docx_file:
    result = mammoth.convert_to_html(docx_file)
    html = result.value # The generated HTML
    messages = result.messages # Any messages, such as warnings during conversion

پشتیبانی از نگاشت سفارشی سبک‌ها

کتابخانه Python-Mammoth مجموعه‌ای از گزینه‌های سفارشی‌سازی را فراهم می‌کند که به توسعه‌دهندگان نرم‌افزار امکان تنظیم دقیق فرآیند استخراج متن برای برآورده کردن نیازهای خاصشان را می‌دهد. توسعه‌دهندگان می‌توانند نگاشت‌های سفارشی سبک تعریف کنند تا کنترل کنند سبک‌های DOCX چگونه به عناصر خاص HTML تبدیل شوند. این امکان انعطاف‌پذیری بیشتری در نمایش محتوای سند فراهم می‌کند. در ادامه مثالی آمده که نشان می‌دهد چگونه سبک Heading 1 در DOCX به صراحت به تگ HTML h1 در برنامه‌های Python نگاشت می‌شود.

چگونه سبک Heading 1 در DOCX را به تگ HTML H1 در برنامه‌های Python نگاشت کنیم؟

style_map = "p[style-name='Heading 1'] => h1:fresh"
with open("document.docx", "rb") as docx_file:
    result = mammoth.convert_to_html(docx_file, style_map=style_map)
    html = result.value
print(html)

 

تبدیل تصاویر DOCX به HTML با Python

کتابخانه منبع باز Python-Mammoth کار را برای توسعه‌دهندگان نرم‌افزار آسان می‌کند تا تصاویر را از فایل‌های Microsoft Word DOCX استخراج کرده و در HTML خروجی گنجانند. به‌صورت پیش‌فرض، ارجاعات تصویر به‌عنوان URLها درج می‌شوند، اما توسعه‌دهندگان می‌توانند نحوه پردازش تصاویر را سفارشی کنند. در ادامه مثالی آورده شده که نشان می‌دهد چگونه تصاویر از فایل DOCX در خروجی HTML حفظ می‌شوند با استفاده از دستورات Python.

چگونه تصاویر را از فایل DOCX به خروجی HTML تبدیل کنیم با API Python؟

with open("document.docx", "rb") as docx_file:
    result = mammoth.convert_to_html(docx_file, convert_image=mammoth.images.img_element())
    html = result.value

print(html)

 

تحلیل چیدمان

کتابخانه منبع باز Python-Mammoth می‌تواند چیدمان یک سند Word DOCX را تجزیه و تحلیل کند و عناصر مانند جداول، تصاویر و بلوک‌های متنی را شناسایی نماید. این ویژگی برای برنامه‌هایی که به استخراج دقیق اطلاعات چیدمان نیاز دارند، اساسی است.

 فارسی