API Python برای تبدیل محتوای Word DOCX به HTML آماده برای وب
کتابخانه منبع باز Python که به توسعهدهندگان نرمافزار امکان خواندن و تبدیل محتوای Microsoft Word DOCX به HTML آماده برای وب درون برنامههای Python را میدهد.
Python-Mammoth چیست؟
تبدیل اسناد به یک ضرورت حیاتی برای توسعهدهندگان نرمافزار تبدیل شده است که برنامههایی میسازند که با متن در محیط دیجیتال امروز تعامل دارند. انتقال روان بین فرمتهای فایل میتواند سازگاری را تضمین کرده و زمان را هنگام کار بر روی یک پلتفرم آموزش آنلاین، ابزار خودکارسازی اسناد یا سیستم مدیریت محتوا (CMS) ذخیره کند. یکی از کتابخانههای قدرتمند در این حوزه Python-Mammoth است، یک کتابخانه منبع باز Python که بهطور خاص برای تبدیل اسناد Microsoft Word (DOCX) به HTML تمیز و معنایی طراحی شده. این کتابخانه خروجی HTML معنایی، استخراج تصاویر از فایلهای DOCX، نگاشتهای سفارشی سبک، هشدارهای مفید درباره عناصر پشتیبانینشده یا مشکلات احتمالی قالببندی، ادغام آسان با برنامههای مبتنی بر Python و موارد بیشمار دیگر را پشتیبانی میکند.
Python-Mammoth توسط مایکل ویلیامسون توسعه یافته است؛ یک کتابخانه منبع باز Python که بر استخراج محتوای اساسی از اسناد DOCX و تبدیل آنها به HTML ساختار یافته متمرکز است. هدف اصلی آن تولید خروجی HTML تمیز و معنایی بدون استایلهای درونخطی غیرضروری یا نشانهگذاری شلوغ است. برخلاف بسیاری از ابزارهای دیگر تبدیل سند، این کتابخانه بر سادگی و دقت تمرکز دارد و معناهای سند مانند سرعنوانها، پاراگرافها و فهرستها را حفظ میکند بهجای تمرکز بر نمایش پیکسلبهپیکسل. این کتابخانه پشتیبانی میکند از تولید گزارشهای HTML تمیز و سازگار از قالبهای Word. تمرکز بر سادگی، خروجی تمیز و قابلیت گسترش، آن را گزینهای عالی برای توسعهدهندگانی که به دنبال راهحلهای تبدیل سند هستند، میسازد.
شروع کار با Python-Mammoth
Python-Mammoth بر روی PyPI میزبانی میشود، بنابراین نصب آن بسیار ساده است. میتوانید با pip و استفاده از فرمان زیر آن را نصب کنید.
نصب Python-Mammoth با فرمان pip
pip install mammoth تبدیل Word DOCX به HTML با Python
کتابخانه منبع باز Python-Mammoth کار را برای توسعهدهندگان نرمافزار آسان میکند تا فایل Microsoft Word DOCX را درون برنامههای Python بارگذاری و به HTML تبدیل کنند. یکی از ویژگیهای برجسته این کتابخانه توانایی آن در تولید خروجی HTML تمیز و معنایی است. این کتابخانه از درج استایلهای درونخطی غیرضروری یا تگهای مالکیتی جلوگیری میکند و اطمینان میدهد که HTML نهایی سبکوزن و آسان برای استایلدهی با CSS باقی بماند. مثال زیر نشان میدهد چگونه محتویات DOCX به HTML تبدیل میشود، آماده برای نمایش یا استایلدهی بیشتر.
چگونه محتوای DOCX را به HTML تبدیل کنیم با API Python؟
import mammoth
with open("document.docx", "rb") as docx_file:
result = mammoth.convert_to_html(docx_file)
html = result.value # The generated HTML
messages = result.messages # Any messages, such as warnings during conversion
پشتیبانی از نگاشت سفارشی سبکها
کتابخانه Python-Mammoth مجموعهای از گزینههای سفارشیسازی را فراهم میکند که به توسعهدهندگان نرمافزار امکان تنظیم دقیق فرآیند استخراج متن برای برآورده کردن نیازهای خاصشان را میدهد. توسعهدهندگان میتوانند نگاشتهای سفارشی سبک تعریف کنند تا کنترل کنند سبکهای DOCX چگونه به عناصر خاص HTML تبدیل شوند. این امکان انعطافپذیری بیشتری در نمایش محتوای سند فراهم میکند. در ادامه مثالی آمده که نشان میدهد چگونه سبک Heading 1 در DOCX به صراحت به تگ HTML h1 در برنامههای Python نگاشت میشود.
چگونه سبک Heading 1 در DOCX را به تگ HTML H1 در برنامههای Python نگاشت کنیم؟
style_map = "p[style-name='Heading 1'] => h1:fresh"
with open("document.docx", "rb") as docx_file:
result = mammoth.convert_to_html(docx_file, style_map=style_map)
html = result.value
print(html)
تبدیل تصاویر DOCX به HTML با Python
کتابخانه منبع باز Python-Mammoth کار را برای توسعهدهندگان نرمافزار آسان میکند تا تصاویر را از فایلهای Microsoft Word DOCX استخراج کرده و در HTML خروجی گنجانند. بهصورت پیشفرض، ارجاعات تصویر بهعنوان URLها درج میشوند، اما توسعهدهندگان میتوانند نحوه پردازش تصاویر را سفارشی کنند. در ادامه مثالی آورده شده که نشان میدهد چگونه تصاویر از فایل DOCX در خروجی HTML حفظ میشوند با استفاده از دستورات Python.
چگونه تصاویر را از فایل DOCX به خروجی HTML تبدیل کنیم با API Python؟
with open("document.docx", "rb") as docx_file:
result = mammoth.convert_to_html(docx_file, convert_image=mammoth.images.img_element())
html = result.value
print(html)
تحلیل چیدمان
کتابخانه منبع باز Python-Mammoth میتواند چیدمان یک سند Word DOCX را تجزیه و تحلیل کند و عناصر مانند جداول، تصاویر و بلوکهای متنی را شناسایی نماید. این ویژگی برای برنامههایی که به استخراج دقیق اطلاعات چیدمان نیاز دارند، اساسی است.