1. 제품
  2.   워드 프로세싱
  3.   Python
  4.   Python-Mammoth
 
  

워드 DOCX 콘텐츠를 웹용 HTML로 변환하는 파이썬 API

소프트웨어 개발자가 파이썬 앱 내에서 Microsoft Word DOCX 콘텐츠를 읽고 웹용 HTML로 변환할 수 있게 하는 오픈소스 파이썬 라이브러리.

Python-Mammoth란?

오늘날 디지털 환경에서 텍스트와 상호작용하는 앱을 만드는 소프트웨어 개발자에게 문서 변환은 필수적인 요구가 되었습니다. 파일 형식 간의 원활한 전환은 호환성을 보장하고 e-러닝 플랫폼, 문서 자동화 도구, 혹은 콘텐츠 관리 시스템(CMS) 작업 시 시간을 절약할 수 있습니다. 이 분야에서 강력한 라이브러리 중 하나가 Python-Mammoth로, Microsoft Word (DOCX) 문서를 깔끔하고 의미론적인 HTML로 변환하도록 특별히 설계된 오픈소스 파이썬 라이브러리입니다. 의미론적 HTML 출력, DOCX 파일에서 이미지 추출, 사용자 정의 스타일 매핑, 지원되지 않는 요소나 잠재적인 서식 문제에 대한 유용한 경고, 파이썬 기반 애플리케이션과의 쉬운 통합 등을 지원합니다.

Michael Williamson가 개발한 Python-Mammoth는 DOCX 문서에서 핵심 콘텐츠를 추출하고 이를 잘 구조화된 HTML로 변환하는 데 중점을 둔 오픈소스 파이썬 라이브러리입니다. 주요 목표는 불필요한 인라인 스타일이나 복잡한 마크업 없이 깔끔하고 의미론적인 HTML 출력을 제공하는 것입니다. 많은 다른 문서 변환 도구와 달리, 단순성과 정확성을 우선시하여 헤딩, 단락, 리스트와 같은 문서 의미를 보존하고 픽셀 단위의 완벽한 재현에 집중하지 않습니다. 이 라이브러리는 워드 템플릿으로부터 깔끔하고 일관된 HTML 보고서를 생성하는 것을 지원합니다. 단순성, 깨끗한 출력, 확장성을 중시하는 점이 문서 변환 솔루션을 찾는 개발자에게 훌륭한 선택이 됩니다.

Previous Next

Python-Mammoth 시작하기

Python-Mammoth는 PyPI에 호스팅되어 있어 설치가 매우 간단합니다. 다음 명령을 사용해 pip로 설치할 수 있습니다.

pip 명령으로 Python-Mammoth 설치

 pip install mammoth 

파이썬을 통한 워드 DOCX에서 HTML 변환

오픈소스 Python-Mammoth 라이브러리는 소프트웨어 개발자가 파이썬 애플리케이션 내에서 Microsoft Word DOCX 파일을 로드하고 HTML로 변환하는 일을 쉽게 해줍니다. 라이브러리의 두드러진 기능 중 하나는 깔끔하고 의미론적인 HTML 출력을 생성하는 능력입니다. 불필요한 인라인 스타일이나 독점 태그 삽입을 피하여 최종 HTML이 가볍고 CSS로 스타일링하기 쉽도록 합니다. 아래 예시는 DOCX 콘텐츠가 HTML로 변환되어 표시하거나 추가로 스타일링하기에 준비된 모습을 보여줍니다.

Python API를 사용해 DOCX 콘텐츠를 HTML로 변환하는 방법은?

 import mammoth

with open("document.docx", "rb") as docx_file:
    result = mammoth.convert_to_html(docx_file)
    html = result.value # The generated HTML
    messages = result.messages # Any messages, such as warnings during conversion

사용자 정의 스타일 매핑 지원

Python-Mammoth 라이브러리는 다양한 맞춤 설정 옵션을 제공하여 소프트웨어 개발자가 텍스트 추출 과정을 특정 요구에 맞게 미세 조정할 수 있게 합니다. 개발자는 DOCX 스타일이 특정 HTML 요소로 변환되는 방식을 제어하기 위해 사용자 정의 스타일 매핑을 정의할 수 있습니다. 이를 통해 문서 콘텐츠 렌더링에 더 큰 유연성을 제공합니다. 아래 예시는 DOCX의 Heading 1 스타일이 파이썬 애플리케이션 내에서 HTML h1 태그에 명시적으로 매핑되는 방법을 보여줍니다.

DOCX의 Heading 1 스타일을 파이썬 앱 내 HTML H1 태그에 매핑하는 방법은?

style_map = "p[style-name='Heading 1'] => h1:fresh"
with open("document.docx", "rb") as docx_file:
    result = mammoth.convert_to_html(docx_file, style_map=style_map)
    html = result.value
print(html)

 

파이썬을 통해 DOCX 이미지를 HTML로 변환

오픈소스 Python-Mammoth 라이브러리는 소프트웨어 개발자가 Microsoft Word DOCX 파일에서 이미지를 추출하고 결과 HTML에 포함시키는 일을 쉽게 합니다. 기본적으로 이미지 참조는 URL로 포함되지만, 개발자는 이미지 처리 방식을 맞춤 설정할 수 있습니다. 아래 예시는 DOCX 파일의 이미지가 파이썬 명령을 사용해 HTML 출력에 보존되는 방법을 보여줍니다.

Python API를 사용해 DOCX 파일의 이미지를 HTML 출력으로 변환하는 방법은?

with open("document.docx", "rb") as docx_file:
    result = mammoth.convert_to_html(docx_file, convert_image=mammoth.images.img_element())
    html = result.value

print(html)

 

레이아웃 분석

오픈소스 Python-Mammoth 라이브러리는 워드 DOCX 문서의 레이아웃을 분석하여 테이블, 이미지, 텍스트 블록과 같은 요소를 식별할 수 있습니다. 이 기능은 레이아웃 정보를 정확히 추출해야 하는 애플리케이션에 필수적입니다.

 한국인