Python API для конвертації вмісту Word DOCX у HTML, готовий для вебу
Бібліотека Python з відкритим кодом, що дозволяє розробникам читати та конвертувати вміст DOCX у HTML, готовий для вебу, у Python‑додатках.
Що таке Python-Mammoth?
Конвертація документів стала критично важливою потребою для розробників ПЗ, які створюють додатки, що працюють з текстом у сучасному цифровому середовищі. Плавна передача між форматами файлів може гарантувати сумісність і заощадити час під час роботи над e‑learning платформою, інструментом автоматизації документів або системою управління контентом (CMS). Однією з потужних бібліотек у цій області є Python‑Mammoth, бібліотека Python з відкритим кодом, спеціально розроблена для конвертації документів Microsoft Word (DOCX) у чистий та семантичний HTML. Вона підтримує семантичний HTML‑вихід, витягування зображень з DOCX‑файлів, користувацькі мапування стилів, корисні попередження про невірні елементи або потенційні проблеми форматування, просту інтеграцію з Python‑додатками та багато іншого.
Розроблена Майклом Вільямсоном, Python-Mammoth — бібліотека Python з відкритим кодом, спрямована на витягування суттєвого вмісту з DOCX‑документів і конвертацію його у добре структурований HTML. Її головна мета — створювати чистий і семантичний HTML‑вихід без зайвих інлайн‑стилів чи захламленої розмітки. На відміну від багатьох інших інструментів конвертації, вона надає перевагу простоті та точності, зберігаючи семантику документу — заголовки, абзаци, списки — а не фокусуючись на піксельно‑ідеальному відтворенні. Бібліотека підтримує генерацію чистих і послідовних HTML‑звітів з Word‑шаблонів. Її орієнтація на простоту, чистий вихід та розширюваність робить її відмінним вибором для розробників, які шукають рішення для конвертації документів.
Початок роботи з Python-Mammoth
Python-Mammoth розміщений на PyPI, тому його дуже просто встановити. Його можна встановити за допомогою pip, використовуючи наступну команду.
Встановити Python-Mammoth за допомогою pip
pip install mammoth Конвертація Word DOCX у HTML за допомогою Python
Відкрита бібліотека Python-Mammoth спрощує розробникам завантаження та конвертацію файлів Microsoft Word DOCX у HTML у Python‑додатках. Одна з видатних особливостей бібліотеки — здатність створювати чистий, семантичний HTML‑вихід. Вона уникає вбудовування зайвих інлайн‑стилів або пропрієтарних тегів, забезпечуючи легкий і легкозважений HTML, який легко стилізувати за допомогою CSS. Наведений приклад показує, як вміст DOCX конвертується у HTML, готовий до відображення або подальшого стилізування.
Як конвертувати вміст DOCX у HTML за допомогою Python API?
import mammoth
with open("document.docx", "rb") as docx_file:
result = mammoth.convert_to_html(docx_file)
html = result.value # The generated HTML
messages = result.messages # Any messages, such as warnings during conversion
Підтримка користувацьких мапувань стилів
Бібліотека Python-Mammoth надає широкий спектр параметрів налаштування, дозволяючи розробникам тонко налаштовувати процес вилучення тексту під свої потреби. Розробники можуть визначати користувацькі мапи стилів, щоб контролювати, як стилі DOCX перетворюються у конкретні HTML‑елементи. Це забезпечує більшу гнучкість у візуалізації вмісту документу. Ось приклад, що показує, як стиль Heading 1 у DOCX явно мапиться на HTML‑тег h1 у Python‑додатках.
Як зіставити стиль Heading 1 у DOCX з HTML‑тегом H1 у Python‑додатках?
style_map = "p[style-name='Heading 1'] => h1:fresh"
with open("document.docx", "rb") as docx_file:
result = mammoth.convert_to_html(docx_file, style_map=style_map)
html = result.value
print(html)
Конвертація зображень DOCX у HTML за допомогою Python
Відкрита бібліотека Python-Mammoth спрощує розробникам вилучення зображень з файлів Microsoft Word DOCX і включення їх у отриманий HTML. За замовчуванням посилання на зображення включаються як URL, але розробники можуть налаштувати обробку зображень. Нижче наведено приклад, який показує, як зображення з файлу DOCX зберігаються у HTML‑виході за допомогою Python‑команд.
Як конвертувати зображення з файлу DOCX у HTML за допомогою Python API?
with open("document.docx", "rb") as docx_file:
result = mammoth.convert_to_html(docx_file, convert_image=mammoth.images.img_element())
html = result.value
print(html)
Аналіз розмітки
Відкрита бібліотека Python-Mammoth може аналізувати розмітку документа Word DOCX, визначаючи елементи, такі як таблиці, зображення та текстові блоки. Ця функція є важливою для застосувань, які потребують точного вилучення інформації про розмітку.