1. Táirgí
  2.   Próiseáil Focal
  3.   Python
  4.   Python-Mammoth
 
  

API Python chun Ábhar DOCX Word a Thiontú go HTML réidh le haghaidh Gréasáin

Leabharlann Python Foinse Oscailte a ligíonn do Forbróirí Bogearraí an t-Ábhar DOCX Microsoft Word a léamh agus a thiontú go HTML réidh le haghaidh Gréasáin i Feidhmchlár Python.

Cad é Python-Mammoth?

Tá tiontú cáipéise tar éis bheith ina ghá ríthábhachtach do fhorbróirí bogearraí a chruthaíonn aipí a idirghníomhaíonn le téacs i dtimpeallacht dhigiteach an lae inniu. D’fhéadfadh aistriú réidh idir formáidí comhaid comhoiriúnacht a ráthú agus am a shábháil nuair a oibrím ar ardán foghlama ar líne, uirlis uathoibriúcháin cáipéise, nó córas bainistíochta ábhair (CMS). Leabharlann chumhachtach amháin in ann Python-Mammoth, leabharlann Python foinse oscailte a dhearthar go sonrach chun cáipéisí Microsoft Word (DOCX) a thiontú go HTML glan agus semantach. Tacaíonn sé le haischur HTML semantach, le híomhánna a bhaint as comhaid DOCX, mapálacha stíleanna saincheaptha, rabhadh cabhracha faoi eilimintí gan tacaíocht nó saincheistí formáidithe féideartha, comhtháthú éasca le haipí bunaithe ar Python, agus i bhfad níos mó.

Forbrófar ag Michael Williamson, is leabharlann Python foinse oscailte é Python-Mammoth a dhíríonn ar an ábhar riachtanach a bhaint as cáipéisí DOCX agus iad a thiontú go HTML dea‑struchtúrtha. Is é a phríomhsprioc le háschur HTML glan agus semantach a tháirgeadh gan stíleanna inline neamhúsáideacha nó marcáil chaorach. Níos mó ná go leor uirlisí tiontú cáipéise eile, cuireann sé béim ar shimplíocht agus cruinneas, ag coinneáil semantach an cháipéise mar cinnscríobh, altanna, agus liostaí seachas díriú ar léiriú pixel‑foirfe. Tacaíonn an leabharlann le tuarascálacha HTML glan agus comhsheasmhach a ghiniúint ó theimpléid Word. Cuireann a dhíriú ar simplíocht, aschur glan, agus inbhuanaitheacht air do rogha den scoth do fhorbróirí a bhfuil ag lorg réitigh tiontaithe cáipéise.

Previous Next

Tosaíonn le Python-Mammoth

Tá Python-Mammoth óstáilte ar PyPI, mar sin tá sé an‑choitianta é a shuiteáil. Is féidir é a shuiteáil le pip ag baint úsáide as an t‑ordú seo a leanas.

Suiteáil Python-Mammoth le hordú pip

 pip install mammoth 

Tiontú Word DOCX go HTML trí Python

Ligeann leabharlann Python-Mammoth foinse oscailte do fhorbróirí bogearraí comhad Microsoft Word DOCX a luchtú agus a thiontú go HTML laistigh de fheidhmchláir Python. Ceann de na gnéithe a sheasann amach den leabharlann ná a chumas aschur HTML glan, semantach a tháirgeadh. Seachnaíonn sé cur stíleanna inline neamhúsáideacha nó clibeanna úinéireachta i bhfolach, ag cinntiú go bhfanann an HTML deiridh éadrom agus furasta le stíleáil le CSS. Taispeánann an sampla seo conas a thiontaítear ábhar DOCX go HTML, réidh le taispeáint nó le cur styling breise.

Conas Ábhar DOCX a Thiontú go HTML trí API Python?

 import mammoth

with open("document.docx", "rb") as docx_file:
    result = mammoth.convert_to_html(docx_file)
    html = result.value # The generated HTML
    messages = result.messages # Any messages, such as warnings during conversion

Tacaíocht Mapáil Stíl Saincheaptha

Soláthraíonn leabharlann Python-Mammoth raon roghanna saincheaptha, ag tabhairt deis do fhorbróirí bogearraí an próiseas bainte téacs a shaincheapadh chun freastal ar a n‑éileamh speisialta. Is féidir le forbróirí mapálacha stíleanna saincheaptha a shainiú chun rialú a dhéanamh ar an mbealach a ndéanann stíleanna DOCX a thiontú go heilimintí HTML ar leith. Ligeann sé sin níos mó solúbthachta i léiriú ábhar na cáipéise. Seo sampla a thaispeánann conas a bhfuil stíl Heading 1 i DOCX mapeáilte go saincheaptha go clib HTML h1 laistigh de fheidhmchláir Python.

Conas Stíl Heading 1 i DOCX a MAPáil go clib HTML H1 i bhfeidhmchlár Python?

style_map = "p[style-name='Heading 1'] => h1:fresh"
with open("document.docx", "rb") as docx_file:
    result = mammoth.convert_to_html(docx_file, style_map=style_map)
    html = result.value
print(html)

 

Tiontú Íomhánna DOCX go HTML trí Python

Déanann leabharlann Python-Mammoth foinse oscailte sé go héasca do fhorbróirí bogearraí íomhánna a bhaint as comhaid Microsoft Word DOCX agus iad a chur san HTML a thagann amach. De réir réamhshocraithe, cuireadh tagairtí íomhánna san íosluchtanna mar URLanna, ach is féidir le forbróirí an modh a choigeartú chun íomhánna láimhseáil. Seo sampla a thaispeánann conas a chaomhnaítear íomhánna ón gcomhad DOCX san aschur HTML ag baint úsáide as orduithe Python.

Conas Íomhánna ó chomhad DOCX a Thiontú go Aschur HTML trí API Python?

with open("document.docx", "rb") as docx_file:
    result = mammoth.convert_to_html(docx_file, convert_image=mammoth.images.img_element())
    html = result.value

print(html)

 

Anailís Leagain

Is féidir le leabharlann Python-Mammoth foinse oscailte an leagan amach de cháipéis Word DOCX a anailísiú, ag aithint eilimintí ar nós táblaí, íomhánna, agus blocanna téacs. Tá an ghné seo riachtanach do fheidhmchláir a éilíonn bailiú cruinn eolais leagan amach.

 Gaeilge