ไลบรารี Node.js ฟรีสำหรับดึงเนื้อหาและเมทาดาต้าจาก DOCX

ไลบรารี Node.js แบบเปิดแหล่งที่มาที่ทรงพลัง ช่วยให้นักพัฒนาซอฟต์แวร์พาร์ส/ดึงข้อความ รูปภาพและเมทาดาต้าจากไฟล์ Office DOCX, PPTX, ODT, ODP & XLSX ในแอป Node.js

OfficeParser คืออะไร?

ในโลกของการพัฒนาซอฟต์แวร์ มีความต้องการเครื่องมือที่ทำให้ภาระงานซับซ้อนง่ายขึ้นเสมอ OfficeParser เป็นเครื่องมือที่โดดเด่นในด้านการจัดการเอกสารสำนักงาน มันเป็นไลบรารี Node.js ที่แข็งแรงออกแบบเฉพาะสำหรับพาร์สไฟล์ Microsoft Office เครื่องมือนี้เป็นการเปลี่ยนเกมสำหรับผู้เชี่ยวชาญซอฟต์แวร์ที่ต้องการดึงและทำงานกับข้อมูลจากไฟล์ Microsoft Word, Excel, และ PowerPoint ได้อย่างง่ายดาย ไลบรารีนี้ออกแบบให้เรียบง่ายและใช้งานง่าย API ที่ใช้งานง่ายทำให้การเพิ่มเข้าไปในโครงการของคุณเป็นเรื่องง่ายโดยไม่มีความยุ่งยากเพิ่มเติม นอกจากฟังก์ชันพื้นฐานแล้ว ไลบรารีนี้ยังมีคุณสมบัติขั้นสูงสำคัญเช่นการพาร์สหลายรูปแบบ, การดึงข้อมูลที่มีคุณค่า, ความเข้ากันได้กับแอปอื่น ๆ อย่างราบรื่น ฯลฯ

นักพัฒนาซอฟต์แวร์สามารถพาร์สเอกสาร Microsoft Office ต่าง ๆ ด้วย OfficeParser แพ็คเกจ Node.js แบบเปิดแหล่งที่มา นักพัฒนาซอฟต์แวร์สามารถดึงข้อความ, ตาราง, ภาพถ่ายและเนื้อหาอื่น ๆ จากเอกสารได้อย่างง่ายดายด้วยไลบรารีของ Harsh Ankur ที่รองรับหลายรูปแบบไฟล์ รวมถึง .docx, .xlsx, .odt, .odp, .pdf และ .pptx ไม่ว่าคุณต้องการดึงข้อมูลเฉพาะจากสเปรดชีตหรือข้อความจากสไลด์การนำเสนอ OfficeParser มีเครื่องมือที่จำเป็นสำหรับทำงานเหล่านี้อย่างมีประสิทธิภาพในสภาพแวดล้อม Node.js ไลบรารีให้คุณเข้าถึงเมทาดาต้าที่รวมอยู่ในเอกสารนอกเหนือจากการดึงเนื้อหา ซึ่งให้ข้อมูลที่สำคัญเกี่ยวกับข้อมูลที่ประมวลผลรวมถึงชื่อผู้เขียน, วันที่สร้างและประวัติการแก้ไข โดยทั่วไปแล้ว เครื่องมือนี้เป็นทรัพยากรที่มีค่ามากสำหรับนักพัฒนาซอฟต์แวร์ที่ทำงานกับไฟล์ Microsoft Office ความสามารถในการทำงานกับรูปแบบหลายชนิดร่วมกับอินเทอร์เฟซที่เป็นมิตรต่อผู้ใช้และฟังก์ชันการดึงข้อมูลที่หลากหลาย ทำให้เป็นส่วนสำคัญที่ต้องมีในชุดเครื่องมือของนักพัฒนาทุกคน

ภาพรวม

ภาพรวมของฟีเจอร์ OfficeParser

Features Overview

ดึงข้อความจาก Docx
ดึงข้อความจาก PPTX
ดึงตาราง
ดึงเมทาดาต้า
พาร์ส Word Docx
ดึงรูปภาพ
ดึงรูปภาพ
ขึ้นบรรทัดใหม่
การสนับสนุนจากชุมชน
ดึงส่วนเฉพาะ

OfficeParser

OfficeParser รองรับรูปแบบต่อไปนี้

Reader

DOCX

Writer

HTML

OfficeParser

ความเป็นอิสระของแพลตฟอร์ม

OfficeParser ต้องการ Java runtime เท่านั้น

JavaScript

OfficeParser

เริ่มต้นใช้งาน OfficeParser

เพื่อทำการติดตั้ง OfficeParser คุณสามารถใช้ npm ซึ่งเป็นผู้จัดการแพ็คเกจของ JavaScript กรุณาใช้คำสั่งต่อไปนี้เพื่อการติดตั้งที่สำเร็จ

ติดตั้งไลบรารี OfficeParser ผ่าน npm

 npm install officeparser

พาร์สและดึงข้อความจาก Word DOCX ผ่านไลบรารี Node.js

ฟีเจอร์หลักของไลบรารี open source officeParser คือความสามารถในการโหลด, พาร์เซ และดึงข้อความจากเอกสาร Office DOCX ด้วยเพียงไม่กี่บรรทัดของโค้ดในแอปพลิเคชัน Node.js ซึ่งเป็นประโยชน์อย่างยิ่งสำหรับแอปที่ต้องการการวิเคราะห์เนื้อหาเอกสาร, การทำดัชนีการค้นหา หรือการประมวลผลข้อความ ตัวอย่างต่อไปนี้เป็นตัวอย่างง่าย ๆ ที่ทำให้นักพัฒนาซอฟต์แวร์สามารถดึงข้อความจากไฟล์ .docx ในแอป Node.js ได้

วิธีดึงข้อความจาก Word DOCX ผ่านไลบรารี Node.js?

const officeParser = require('officeparser');

officeParser.parseDocx('path/to/example.docx', (err, data) => {
  if (err) {
    console.error('Error parsing .docx file:', err);
  } else {
    console.log('Extracted text:', data);
  }
});

พาร์สเมทาดาต้าจาก Word DOCX ผ่านไลบรารี Node.js

นอกเหนือจากการดึงเนื้อหา ไลบรารี open source officeParser ยังให้ผู้พัฒนาซอฟต์แวร์เข้าถึงและดึงเมทาดาต้าที่ฝังอยู่ในเอกสาร Word, Excel และ PowerPoint ของพวกเขา ซึ่งรวมถึงรายละเอียดต่าง ๆ เช่น ชื่อผู้เขียน, ตำแหน่งผู้เขียน, วันที่สร้าง และประวัติการแก้ไข เพื่อให้ข้อมูลที่มีค่าแก่ข้อมูลที่พาร์ส ตัวอย่างต่อไปนี้แสดงวิธีที่นักพัฒนาสามารถดึงรูปภาพจากไฟล์ .docx ในสภาพแวดล้อม Node.js

วิธีดึงรูปภาพจากไฟล์ .docx ในแอป Node.js?

const officeParser = require('officeparser');

officeParser.parseDocxImages('path/to/example.docx', (err, images) => {
  if (err) {
    console.error('Error extracting images from .docx file:', err);
  } else {
    images.forEach((image, index) => {
      console.log(`Image ${index + 1}:`, image);
    });
  }
});

สนับสนุนหลายรูปแบบไฟล์

ไลบรารี OfficeParser แบบเปิดแหล่งที่มาสามารถจัดการกับหลายรูปแบบไฟล์ Microsoft Office รวมถึง .docx (Word), .xlsx (Excel) และ .pptx (PowerPoint) ในสภาพแวดล้อม Node.js ความหลากหลายนี้ทำให้เป็นโซลูชันครบวงจรสำหรับความต้องการการพาร์เซเอกสารหลายรูปแบบ ความสามารถในการทำงานหลายรูปแบบนี้ทำให้แน่ใจว่านักพัฒนาสามารถทำงานกับเอกสาร Office ชนิดต่าง ๆ ได้ด้วยไลบรารีเดียว มันสนับสนุนการทำงานแบบ asynchronous ทำให้การประมวลผลไฟล์ขนาดใหญ่มีประสิทธิภาพโดยไม่บล็อกเธรดหลัก