Apache POI HWPF

 
 

Microsoft Word बाइनरी दस्तावेज़ों को संसाधित करें

ओपन सोर्स जावा लाइब्रेरी के माध्यम से डीओसी फाइलें बनाएं, पढ़ें, हेरफेर करें और कनवर्ट करें।

Apache POI HWPF Microsoft Word DOC फ़ाइल स्वरूप के लिए Apache POI पोर्ट है। यह बिना किसी अतिरिक्त पुस्तकालय की आवश्यकता के डीओसी फाइलों को पढ़ने और लिखने के लिए कार्यक्षमता प्रदान करता है। यह पुराने Word 6 और Word 95 फ़ाइल स्वरूपों के लिए सीमित रीड-ओनली समर्थन भी प्रदान करता है। इस स्तर पर, एचडब्ल्यूपीएफ मुख्य रूप से स्वरूपित पाठ से संबंधित है। यह मूल पाठ निष्कर्षण, विशिष्ट पाठ निष्कर्षण, शीर्षलेख और पादलेख तक पहुंच और पाठ सुविधाओं को बदलने की सुविधा प्रदान करता है।

यह डेवलपर्स को पैराग्राफ में हेरफेर करने, टेक्स्ट में विभिन्न शैलियों को जोड़ने, एक टेबल जोड़ने, टेक्स्ट निकालने और बहुत कुछ करने की क्षमता के साथ एमएस-वर्ड दस्तावेज़ बनाने की सुविधा प्रदान करता है।

Previous Next

Apache POI HWPF के साथ शुरुआत करना

सबसे पहले, आपको अपने सिस्टम पर जावा डेवलपमेंट किट (JDK) स्थापित करना होगा। यदि आपके पास यह पहले से है तो किसी संग्रह में नवीनतम स्थिर रिलीज़ प्राप्त करने के लिए Apache POI के डाउनलोड पृष्ठ पर जाएं। ज़िप फ़ाइल की सामग्री को किसी भी निर्देशिका में निकालें जहाँ से आवश्यक पुस्तकालयों को आपके जावा प्रोग्राम से जोड़ा जा सकता है। बस इतना ही!

अपने मावेन-आधारित जावा प्रोजेक्ट में अपाचे पीओआई को संदर्भित करना और भी आसान है। आपको बस अपने pom.xml में निम्नलिखित निर्भरता को जोड़ना है और अपने IDE को Apache POI Jar फ़ाइलों को लाने और संदर्भित करने देना है।

अपाचे पीओआई मावेन निर्भरता

<!-- https://mvnrepository.com/artifact/org.apache.poi/poi -->
  <dependency>
    <groupId>org.apache.poi</groupId>
    <artifactId>poi-scratchpad</artifactId>
    <version>4.0.0</version>
  </dependency>
  

जावा एपीआई का उपयोग करके वर्ड दस्तावेज़ बनाएं और संशोधित करें

Apache POI HWPF प्रोग्रामर्स को DOC फ़ाइल स्वरूपों में नए Word दस्तावेज़ बनाने में सक्षम बनाता है। एपीआई डेवलपर्स को मौजूदा वर्ड दस्तावेज़ों को अपनी आवश्यकताओं के अनुसार संशोधित करने की भी अनुमति देता है। एपीआई वर्ड डॉक्यूमेंट में पैराग्राफ जोड़ने, टेक्स्ट एलाइनमेंट और फॉन्ट स्टाइल लागू करने और बहुत कुछ का भी समर्थन करता है।

DOC फ़ाइल को संशोधित करें - Java

// open an empty doc file, using APACHE POI we cannot create .doc file format from scratch
HWPFDocument doc = new HWPFDocument(new FileInputStream("empty.doc"));
Range range = doc.getRange();
// inset text
CharacterRun run = range.insertAfter("File Format Developer Guide - " +
"Learn about computer files that you come across in " +
"your daily work at: www.fileformat.com ");
OutputStream out = new FileOutputStream("document.pdf");
// save document
doc.write(out);
out.close();

जावा का उपयोग करके वर्ड दस्तावेज़ों को अन्य प्रारूपों में कनवर्ट करें

Pache POI HWPF सॉफ्टवेयर डेवलपर्स को Microsoft Word दस्तावेज़ों को किसी भी समर्थित फ़ाइल स्वरूपों में आसानी से परिवर्तित करने में सक्षम बनाता है। फिलहाल जावा डेवलपर वर्ड डॉक्यूमेंट को एचटीएमएल, एफओ और टेक्स्ट फॉर्मेट में बदल सकते हैं। org.apache.poi.hwpf.converter पैकेज में वर्ड-टू-एचटीएमएल और वर्ड-टू-एफओ कन्वर्टर्स शामिल हैं।

DOC को HTML में बदलें

// load document
HWPFDocumentCore wordDocument = WordToHtmlUtils.loadDoc(new FileInputStream("document.doc"));
Document newDocument = DocumentBuilderFactory.newInstance().newDocumentBuilder().newDocument();
// initialize WordToHtmlConverter
WordToHtmlConverter wordToHtmlConverter = new WordToHtmlConverter(newDocument );
// process document
wordToHtmlConverter.processDocument( wordDocument );
StringWriter stringWriter = new StringWriter();
Transformer transformer = TransformerFactory.newInstance().newTransformer();
transformer.setOutputProperty( OutputKeys.INDENT, "yes" );
transformer.setOutputProperty( OutputKeys.ENCODING, "utf-8" );
transformer.setOutputProperty( OutputKeys.METHOD, "html" );
transformer.transform(
    new DOMSource( wordToHtmlConverter.getDocument() ),
    new StreamResult( stringWriter ) );
// get html
String html = stringWriter.toString();

DOC फ़ाइल से पाठ पढ़ें

Apache POI HWPF Microsoft Word DOC फ़ाइल स्वरूप से पाठ पढ़ने के लिए WordExtractor वर्ग प्रदान करता है। आप कोड की केवल कुछ पंक्तियों के साथ फ़ाइल से टेक्स्ट निकाल सकते हैं।

DOC फ़ाइल से टेक्स्ट निकालें

// load DOC file
FileInputStream fis = new FileInputStream(new File("document.doc"));
// open file
HWPFDocument doc = new HWPFDocument(fis);
// read text
WordExtractor extractor = new WordExtractor(doc);
// display text
System.out.println(extractor.getText());

DOC में कस्टम शीर्षलेख और पाद लेख जोड़ें

Apache POI HWPF जावा डेवलपर्स को Word दस्तावेज़ों के अंदर कस्टम हेडर और फ़ुटर बनाने में सक्षम बनाता है। Apache POI HWPF को "मामूली कार्यात्मक" के रूप में वर्णित किया गया है। यह मूल पाठ निष्कर्षण, विशिष्ट पाठ निष्कर्षण, शीर्षलेख और पादलेख तक पहुंच, और पाठ सुविधाओं को बदलने के लिए सहायता प्रदान करता है। getText() विधि का उपयोग सभी अनुच्छेदों से पाठ प्राप्त करने के लिए किया जा सकता है, या getPargraphText() का उपयोग प्रत्येक अनुच्छेद से पाठ को बारी-बारी से लाने के लिए किया जा सकता है। 

Word DOC फ़ाइल में कस्टम शीर्षलेख और पाद लेख प्रबंधित करें


// The path to the documents directory.
String dataDir = Utils.getDataDir(ApacheHeaders.class);
POIFSFileSystem fs = null;
fs = new POIFSFileSystem(new FileInputStream(dataDir + "MyHeader.doc"));
HWPFDocument doc = new HWPFDocument(fs);
int pageNumber = 1;
HeaderStories headerStore = new HeaderStories(doc);
String header = headerStore.getHeader(pageNumber);
System.out.println("Header Is: " + header);
 हिन्दी