DOCX‑dən məzmun və metadata çıxarmaq üçün pulsuz Node.js kitabxanası
Güclü açıq mənbəli Node.js kitabxanası, proqramçılara Node.js tətbiqlərində Office DOCX, PPTX, ODT, ODP və XLSX sənədlərindən mətn, şəkil və metadata pars‑etmə/çıxarmağa imkan verir.
OfficeParser nədir?
Proqram təminatı inkişafı dünyasında mürəkkəb vəzifələri asanlaşdıran alətlərə həmişə ehtiyac vardır. OfficeParser ofis sənədləri ilə işləmək sahəsində diqqətəlayiq bir vasitədir. Bu, Microsoft Office fayllarını pars‑etmə üçün xüsusi olaraq hazırlanmış güclü bir Node.js kitabxanasıdır. Bu praktiki vasitə, Microsoft Word, Excel və PowerPoint fayllarından məlumatı asanlıqla çıxarmaq və onlarla işləmək istəyən proqramçılar üçün dəyişdirici rol oynayır. Kitabxana sadə və istifadəçi‑dostu olmaq üçün hazırlanmışdır. İstifadəsi asan API‑si, sizin kimi inkişafçıların onu layihələrinə əlavə etməsini çox asanlaşdırır. Əsas funksiyalarının yanında, kitabxana Multi‑Format pars‑etmə, zəngin məlumat çıxarışı, digər tətbiqlərlə problemsiz uyğunluq və daha bir çox əsas inkişaf etmiş xüsusiyyətləri də təqdim edir.
Proqramçılar OfficeParser, açıq mənbəli Node.js paketi ilə müxtəlif Microsoft Office sənədlərini pars‑etə bilərlər. Harsh Ankurun kitabxanasının köməyi ilə sənədlərdən mətn, cədvəllər, fotoşəkillər və digər məzmunu asanlıqla çıxara bilərsiniz; bu kitabxana .docx, .xlsx, .odt, .odp, .pdf və .pptx daxil olmaqla müxtəlif fayl formatlarını dəstəkləyir. İstər elektron cədvəldən xüsusi məlumat nöqtələrini əldə etmək, istər təqdimat slaydından mətn çıxarmaq istəsəniz, OfficeParser Node.js mühitində bu vəzifələri səmərəli şəkildə yerinə yetirmək üçün alətləri təqdim edir. Kitabxana məzmun çıxarışının yanında sənədlərdə daxil olan metadata‑ya da çıxış imkanı verir. Bu, işlənmiş məlumat üçün vacib kontekst təmin edir və müəllif adları, yaradılma tarixləri, dəyişiklik tarixçəsi kimi məlumatları əhatə edir. Ümumilikdə, bu vasitə Microsoft Office faylları ilə işləyən proqramçılar üçün dəyərli bir sərvətdir. Müxtəlif formatlarla işləmə qabiliyyəti, istifadəçi‑dostu interfeysi və geniş məlumat çıxarış funksiyaları onu hər bir inkişafçının alət dəstinə vacib bir əlavə edir.
OfficeParser ilə Başlanğıc
OfficeParser‑ı quraşdırmaq üçün JavaScript paket meneceri npm‑dən istifadə edə bilərsiniz. Uğurlu quraşdırma üçün aşağıdakı əmrlərdən istifadə edin.
OfficeParser kitabxanasını npm vasitəsilə quraşdırın
npm install officeparser Node.js kitabxanası vasitəsilə Word DOCX‑dən mətn pars‑etmə və çıxarmaq
Açıq mənbəli officeParser kitabxanasının əsas xüsusiyyəti Node.js tətbiqlərində bir neçə kod sətiri ilə Office DOCX sənədlərini yükləmək, pars‑etmək və mətn çıxarmaq qabiliyyətidir. Bu, sənəd məzmunu təhlili, axtarış indeksləşdirmə və ya mətn emalı tələb edən tətbiqlər üçün xüsusilə faydalıdır. Aşağıda proqramçılara Node.js tətbiqlərində .docx faylından mətn çıxarmağa imkan verən çox sadə bir nümunə verilmişdir.
Node.js kitabxanası vasitəsilə Word DOCX‑dən mətn necə çıxarmaq olar?
const officeParser = require('officeparser');
officeParser.parseDocx('path/to/example.docx', (err, data) => {
if (err) {
console.error('Error parsing .docx file:', err);
} else {
console.log('Extracted text:', data);
}
});
Node.js kitabxanası vasitəsilə Word DOCX‑dən metadata pars‑etmək
Məzmun çıxarışına əlavə olaraq, açıq mənbəli officeParser kitabxanası proqramçılara Word, Excel və PowerPoint sənədlərində yerləşən metadata‑ya çıxış və onu çıxarmağa imkan verir. Bu, müəllif adları, müəllif titulü, yaradılma tarixləri və dəyişiklik tarixçəsi kimi məlumatları əhatə edir və pars‑edilmiş məlumat üçün dəyərli kontekst təmin edir. Aşağıdakı nümunə proqramçıların Node.js mühitində .docx faylından şəkilləri necə çıxara biləcəyini göstərir.
How to Extract Images from a .docx File inside Node.js Apps?
const officeParser = require('officeparser');
officeParser.parseDocxImages('path/to/example.docx', (err, images) => {
if (err) {
console.error('Error extracting images from .docx file:', err);
} else {
images.forEach((image, index) => {
console.log(`Image ${index + 1}:`, image);
});
}
});
Çoxformatlı Dəstək
Açıq mənbəli OfficeParser kitabxanası .docx (Word), .xlsx (Excel) və .pptx (PowerPoint) daxil olmaqla bir neçə Microsoft Office fayl formatını Node.js mühitində idarə edə bilir. Bu çeviklik onu müxtəlif sənəd pars‑etmə ehtiyacları üçün yekun həll edir. Çoxformatlı bu qabiliyyət, inkişafçıların tək bir kitabxana ilə geniş çeşiddə Office sənədləri üzərində işləməsini təmin edir. O, asinxron əməliyyatları dəstəkləyir, beləliklə böyük sənədlərin səmərəli emalı əsas ipi bloklamadan həyata keçirilir.