1. Məhsullar
  2.   Söz emalı
  3.   Python
  4.   Python-Mammoth
 
  

Python API‑si Word DOCX məzmununu veb‑hazır HTML‑ə çevirmək üçün

Açıq Mənbəli Python Kitabxanası, proqram təminatı inkişafçılarına Microsoft Word DOCX məzmununu Python tətbiqlərində veb‑hazır HTML‑ə oxumağa və çevirməyə imkan verir.

Python-Mammoth nədir?

Sənəd çevrimi bu gün proqram təminatı inkişafçıları üçün mətnlə işləyən tətbiqlər yaratarkən vacib bir ehtiyac halına gəlib. Fayl formatları arasında hamar keçid uyğunluğu təmin edə və e‑öyrənmə platforması, sənəd avtomatlaşdırma aləti və ya məzmun idarəetmə sistemi (CMS) üzərində işləyərkən vaxt qazana bilər. Bu sahədəki güclü kitabxanalardan biri Python-Mammoth‑dur, açıq mənbəli Python kitabxanası, xüsusi olaraq Microsoft Word (DOCX) sənədlərini təmiz və semantik HTML‑ə çevirmək üçün hazırlanmışdır. Semantik HTML çıxışı, DOCX‑dən şəkillərin çıxarılması, özəl stil xəritələmələri, dəstəklənməyən elementlər və ya potensial formatlama problemləri haqqında faydalı xəbərdarlıqlar, Python‑əsaslı tətbiqlərlə asan inteqrasiya və daha çoxunu dəstəkləyir.

Michael Williamson tərəfindən hazırlanmış Python-Mammoth, DOCX sənədlərindən əsas məzmunu çıxarıb yaxşı strukturlaşdırılmış HTML‑ə çevirən açıq mənbəli Python kitabxanasıdır. Əsas məqsədi lazımsız inline stilləri və qarışıqlıq yaradan markup‑ı çıxararaq təmiz və semantik HTML çıxışı istehsal etməkdir. Çoxsaylı digər sənəd çevirmə alətlərindən fərqli olaraq, sadəliyə və dəqiqliyə önəm verir, sənəd semantikasını – başlıqlar, paraqraflar və siyahılar – qoruyur, piksel‑tam uyğunluğu deyil. Kitabxana Word şablonlarından təmiz və tutarlı HTML hesabatlar yaratmağı dəstəkləyir. Sadəliyə, təmiz çıxışa və genişləndirilə bilməyə fokuslanması, sənəd çevrim həllləri axtaran inkişafçılar üçün əla seçim edir.

Previous Next

Python-Mammoth ilə Başlamaq

Python-Mammoth PyPI‑də yerləşir, ona görə quraşdırmaq çox sadədir. Aşağıdakı əmrlə pip istifadə edərək quraşdırıla bilər.

Python-Mammoth‑u pip əmri ilə quraşdırın

 pip install mammoth 

Python vasitəsilə Word DOCX‑dən HTML‑ə Çevirmə

Açıq mənbəli Python-Mammoth kitabxanası, proqram təminatı inkişafçılarına Microsoft Word DOCX faylını Python tətbiqləri daxilində HTML‑ə yükləmək və çevirmək üçün asanlıq yaradır. Kitabxananın öncül xüsusiyyətlərindən biri təmiz, semantik HTML çıxışı istehsal etmə qabiliyyətidir. Lazımsız inline stilləri və ya patentli etiketləri əlavə etmədən, son HTML‑nin yüngül və CSS‑lə stil vermək üçün asan qalmasını təmin edir. Aşağıdakı nümunə DOCX məzmununun HTML‑ə necə çevrildiyini, göstərilməyə və ya əlavə stil veriləməyə hazır olduğunu nümayiş etdirir.

DOCX məzmununu Python API‑si vasitəsilə HTML‑ə necə çevirmək olar?

 import mammoth

with open("document.docx", "rb") as docx_file:
    result = mammoth.convert_to_html(docx_file)
    html = result.value # The generated HTML
    messages = result.messages # Any messages, such as warnings during conversion

Xüsusi Stil Xəritələmə Dəstəyi

Python-Mammoth kitabxanası müxtəlif fərdiləşdirmə seçimləri təqdim edir, proqram təminatı inkişafçılarına mətn çıxarış prosesini öz ehtiyaclarına uyğun tənzimləməyə imkan verir. İnkişafçılar özəl stil xəritələmələri təyin edərək DOCX stillərinin spesifik HTML elementlərinə necə çevrildiyini idarə edə bilərlər. Bu, sənəd məzmununun göstərilməsində daha çox elastiklik verir. Budur DOCX‑də Heading 1 stilinin Python tətbiqlərində HTML h1 etiketi ilə necə xəritələndiyini göstərən nümunə.

DOCX‑də Heading 1 stilini Python tətbiqlərində HTML H1 etiketi ilə necə xəritələmək olar?

style_map = "p[style-name='Heading 1'] => h1:fresh"
with open("document.docx", "rb") as docx_file:
    result = mammoth.convert_to_html(docx_file, style_map=style_map)
    html = result.value
print(html)

 

DOCX‑dəki Şəkilləri Python vasitəsilə HTML‑ə Çevirmək

Açıq mənbəli Python-Mammoth kitabxanası proqram təminatı inkişafçılarına Microsoft Word DOCX fayllarından şəkilləri çıxarmağı və nəticə HTML‑də daxil etməyi asanlaşdırır. Standart olaraq, şəkil istinadları URL‑lər kimi əlavə olunur, lakin inkişafçılar şəkillərin necə işlənəcəyini fərdiləşdirə bilərlər. Aşağıdakı nümunə DOCX faylındakı şəkillərin Python əmrləri vasitəsilə HTML çıxışında necə saxlanıldığını göstərir.

DOCX faylından şəkilləri Python API‑si vasitəsilə HTML çıxışına necə çevirmək olar?

with open("document.docx", "rb") as docx_file:
    result = mammoth.convert_to_html(docx_file, convert_image=mammoth.images.img_element())
    html = result.value

print(html)

 

Layout Analizi

Açıq mənbəli Python-Mammoth kitabxanası Word DOCX sənədinin layout‑unu analiz edə, cədvəllər, şəkillər və mətn blokları kimi elementləri müəyyən edə bilir. Bu xüsusiyyət layout məlumatının dəqiq çıxarılmasını tələb edən tətbiqlər üçün vacibdir.

 Azəri