واجهة برمجة تطبيقات Python لتحويل محتوى Word DOCX إلى HTML جاهز للويب

مكتبة Python مفتوحة المصدر تسمح للمطورين بقراءة وتحويل محتوى Microsoft Word DOCX إلى HTML جاهز للويب داخل تطبيقات Python.

ما هو Python-Mammoth؟

أصبح تحويل المستندات ضرورة حيوية للمطورين الذين يخلقون تطبيقات تتعامل مع النص في البيئة الرقمية اليوم. يمكن للانتقال السلس بين صيغ الملفات ضمان التوافق وتوفير الوقت عند العمل على منصة التعلم الإلكتروني أو أداة أتمتة المستندات أو نظام إدارة المحتوى (CMS). إحدى المكتبات القوية في هذا المجال هي Python-Mammoth، مكتبة Python مفتوحة المصدر مصممة خصيصًا لتحويل مستندات Microsoft Word (DOCX) إلى HTML نظيف وذو معنى. تدعم مخرجات HTML ذات معنى، استخراج الصور من ملفات DOCX، تعيين الأنماط المخصصة، تحذيرات مفيدة حول العناصر غير المدعومة أو المشكلات المحتملة في التنسيق، تكامل سهل مع التطبيقات القائمة على Python وغيرها الكثير.

تم تطوير Python-Mammoth بواسطة Michael Williamson، وهي مكتبة Python مفتوحة المصدر تركز على استخراج المحتوى الأساسي من مستندات DOCX وتحويله إلى HTML منظم بشكل جيد. هدفها الأساسي هو إنتاج مخرجات HTML نظيفة وذات معنى دون أنماط مضمنة غير ضرورية أو ترميز فوضوي. على عكس العديد من أدوات تحويل المستندات الأخرى، تعطي الأولوية للبساطة والدقة، مع الحفاظ على دلالات المستند مثل العناوين والفقرات والقوائم بدلاً من التركيز على تمثيل بكسل دقيق. تدعم المكتبة إنشاء تقارير HTML نظيفة ومتسقة من قوالب Word. تركيزها على البساطة، الإخراج النظيف، وإمكانية التوسيع يجعلها خيارًا ممتازًا للمطورين الباحثين عن حلول تحويل المستندات.

Previous Next

البدء مع Python-Mammoth

Python-Mammoth مستضافة على PyPI، لذا من السهل جدًا تثبيتها. يمكن تثبيتها باستخدام pip عبر الأمر التالي.

تثبيت Python-Mammoth عبر أمر pip

 pip install mammoth 

تحويل Word DOCX إلى HTML عبر Python

تسهل مكتبة Python-Mammoth المفتوحة المصدر على المطورين تحميل وتحويل ملفات Microsoft Word DOCX إلى HTML داخل تطبيقات Python. إحدى الميزات البارزة للمكتبة هي قدرتها على إنتاج مخرجات HTML نظيفة وذات معنى. تتجنب تضمين أنماط مضمنة غير ضرورية أو علامات مملوكة، مما يضمن أن يبقى HTML النهائي خفيف الوزن وسهل التنسيق باستخدام CSS. يوضح المثال التالي كيف يتم تحويل محتوى DOCX إلى HTML، جاهز للعرض أو التنسيق الإضافي.

كيف تحوّل محتوى DOCX إلى HTML عبر واجهة برمجة تطبيقات Python؟

 import mammoth

with open("document.docx", "rb") as docx_file:
    result = mammoth.convert_to_html(docx_file)
    html = result.value # The generated HTML
    messages = result.messages # Any messages, such as warnings during conversion

دعم تعيين الأنماط المخصصة

توفر مكتبة Python-Mammoth مجموعة من خيارات التخصيص، مما يسمح للمطورين بضبط عملية استخراج النص لتناسب احتياجاتهم المحددة. يمكن للمطورين تعريف تعيينات أنماط مخصصة للتحكم في كيفية تحويل أنماط DOCX إلى عناصر HTML محددة. هذا يتيح مرونة أكبر في عرض محتوى المستند. إليكم مثالًا يوضح كيفية تعيين نمط Heading 1 في DOCX صراحة إلى علامة HTML h1 داخل تطبيقات Python.

كيف يتم تعيين نمط Heading 1 في DOCX إلى علامة HTML H1 داخل تطبيقات Python؟

style_map = "p[style-name='Heading 1'] => h1:fresh"
with open("document.docx", "rb") as docx_file:
    result = mammoth.convert_to_html(docx_file, style_map=style_map)
    html = result.value
print(html)

 

تحويل صور DOCX إلى HTML عبر Python

تسهل مكتبة Python-Mammoth المفتوحة المصدر على المطورين استخراج الصور من ملفات Microsoft Word DOCX وإدراجها في HTML الناتج. بشكل افتراضي، يتم تضمين مراجع الصور كروابط URL، لكن يمكن للمطورين تخصيص طريقة معالجة الصور. إليكم مثالًا يوضح كيفية حفظ الصور من ملف DOCX في مخرجات HTML باستخدام أوامر Python.

كيف يتم تحويل الصور من ملف DOCX إلى مخرجات HTML عبر واجهة برمجة تطبيقات Python؟

with open("document.docx", "rb") as docx_file:
    result = mammoth.convert_to_html(docx_file, convert_image=mammoth.images.img_element())
    html = result.value

print(html)

 

تحليل التخطيط

يمكن لمكتبة Python-Mammoth المفتوحة المصدر تحليل تخطيط مستند Word DOCX، وتحديد عناصر مثل الجداول، الصور، وكتل النص. هذه الميزة ضرورية للتطبيقات التي تتطلب استخراجًا دقيقًا لمعلومات التخطيط.

 عربي