สร้าง HTML ที่เรียบง่ายและสะอาดตาจาก Microsoft® Word Docs ด้วย Mammoth
แปลง Word เป็น HTML อย่างมีความหมายโดยไม่ต้องกังวลว่าเนื้อหาจะถูกลบ
แมมมอธคืออะไร?
Mammoth เป็นแพ็คเกจที่ใช้งานง่าย เรียบง่าย และไม่ยุ่งยาก ซึ่งสามารถใช้เพื่อแปลงเอกสาร Word ที่สร้างจาก Google Docs, Microsoft Word และ LibreOffice เป็น HTML ในฐานะที่เป็นโอเพ่นซอร์ส Doc เป็นตัวแปลง HTML Mammoth มีประโยชน์ในการแปลงเอกสารใด ๆ ตามความหมายโดยไม่ต้องเน้นที่สไตล์ สี หรือฟอนต์ที่ใช้
Mammoth นำเสนอการสาธิตทางเว็บเพื่อดูว่าจะแปลงเอกสารเป็น HTML ได้อย่างไร อย่างไรก็ตาม หนึ่งในคุณสมบัติที่ดีที่สุดของตัวแปลงเอกสารนี้เป็น HTML คือหลายแพลตฟอร์มที่รองรับ เช่น WordPress, Java/JVM, .NET และ Python ผ่าน PyPI หากคุณมีเอกสารที่ซับซ้อนซึ่งสร้างขึ้นด้วยลักษณะและคุณสมบัติสีมากมาย อาจเป็นไปได้ที่คุณจะพบว่าผลลัพธ์สุดท้ายและไฟล์อินพุตไม่ตรงกัน
ไม่ว่าเอกสาร Word ธรรมดาๆ ที่ต้องแปลงเป็น HTML แมมมอธก็จัดการได้สำเร็จ
เริ่มต้นกับแมมมอธ
วิธีที่แนะนำในการติดตั้งไลบรารี Mammoth คือผ่าน npm โปรดใช้คำสั่งต่อไปนี้เพื่อการติดตั้งที่ราบรื่น
ติดตั้งแมมมอธผ่าน npm
npm install mammoth
แปลง Microsoft® Word เป็น HTML ผ่าน JavaScript API ฟรี
Mommoth เป็น JavaScript API โอเพ่นซอร์สเพื่อแปลง Word เป็น HTML ฟรี มีฟีเจอร์มากมายในการจัดรูปแบบและแก้ไขเอกสาร Word เมื่อถูกแปลงเป็น HTML เช่น การเพิ่มหัวเรื่อง รายการ และรูปภาพ ตัวเอียงและแบบอักษรตัวหนา การเพิ่มตัวแบ่งบรรทัด และอื่นๆ อีกมากมาย รูปภาพทั้งหมดใน word doc ถูกสร้างขึ้นในผลลัพธ์ HTML โดยค่าเริ่มต้น คุณยังสามารถแยกข้อความดิบจากเอกสารใดก็ได้โดยใช้ฟังก์ชัน mammoth.extractRawText แต่จะไม่สนใจการจัดรูปแบบจากเอกสารต้นฉบับ
แปลงไฟล์ .docx ที่มีอยู่เป็น HTML
var mammoth = require("mammoth");
mammoth.convertToHtml({path: "path/to/document.docx"})
.then(function(result){
var html = result.value; // The generated HTML
var messages = result.messages; // Any messages, such as warnings during conversion
})
.done();
แมปสไตล์จาก Word เป็น HTML ผ่าน JavaScript API
โดยส่วนใหญ่ Mammoth จะจับคู่รูปแบบ Microsoft Word DOCX ทั่วไปจากเอกสาร Word ต้นฉบับลงในผลลัพธ์สุดท้ายที่เป็น HTML องค์ประกอบเช่นหัวเรื่อง 1 ใน Word จะถูกแปลงเป็น H1 ใน HTML อย่างไรก็ตาม Mammoth มีฟังก์ชันมากมายในการแปลงสไตล์จากเอกสาร Word เป็น HTML
แผนที่สไตล์ที่กำหนดเอง
var mammoth = require("mammoth");
var options = {
styleMap: [
"p[style-name='Section Title'] => h1:fresh",
"p[style-name='Subsection Title'] => h2:fresh"
]
};
mammoth.convertToHtml({path: "path/to/document.docx"}, options);