1. Tuotteet
  2.   Tekstinkäsittely
  3.   Java
  4.   Apache POI HWPF

Apache POI HWPF

 
 

Käsittele Microsoft Wordin binaariasiakirjoja

Luo, lue, käsittele ja muunna DOC-tiedostoja avoimen lähdekoodin Java-kirjaston kautta.

Apache POI HWPF on Apache POI -portti Microsoft Word DOC -tiedostomuodolle. Se tarjoaa toimintoja DOC-tiedostojen lukemiseen ja kirjoittamiseen ilman lisäkirjastoja. Se tarjoaa myös rajoitetun vain luku -tuen vanhemmille Word 6- ja Word 95 -tiedostomuodoille. Tässä vaiheessa HWPF koskee pääasiassa muotoiltua tekstiä. Se tarjoaa perustekstin purkamisen, tietyn tekstin purkamisen, pääsyn ylä- ja alatunnisteisiin sekä tekstiominaisuuksien muuttaminen.

Sen avulla kehittäjät voivat luoda MS-Word-dokumentteja, joissa voidaan käsitellä kappaleita, lisätä tekstiin erilaisia tyylejä, lisätä taulukko, poimia tekstiä ja paljon muuta.

Previous Next

Apache POI HWPF:n käytön aloittaminen

Ensinnäkin, sinun on oltava Java Development Kit (JDK) asennettuna järjestelmääsi. Jos sinulla on jo se, siirry Apache POI:n lataussivulle saadaksesi uusimman vakaan julkaisun arkistona. Pura ZIP-tiedoston sisältö missä tahansa hakemistossa, josta tarvittavat kirjastot voidaan linkittää Java-ohjelmaasi. Siinä kaikki!

Apache POI:iin viittaaminen Maven-pohjaisessa Java-projektissa on vielä yksinkertaisempaa. Sinun tarvitsee vain lisätä seuraava riippuvuus pom.xml-tiedostoosi ja antaa IDE:n hakea ja viitata Apache POI Jar -tiedostoihin.

Apache POI Maven -riippuvuus

<!-- https://mvnrepository.com/artifact/org.apache.poi/poi -->
  <dependency>
    <groupId>org.apache.poi</groupId>
    <artifactId>poi-scratchpad</artifactId>
    <version>4.0.0</version>
  </dependency>
  

Luo ja muokkaa Word-asiakirjoja Java-sovellusliittymien avulla

Apache POI HWPF:n avulla ohjelmoijat voivat luoda uusia Word-asiakirjoja DOC-tiedostomuodoissa. Sovellusliittymän avulla kehittäjät voivat myös muokata olemassa olevia Word-asiakirjoja omien tarpeidensa mukaan. API tukee myös kappaleen lisäämistä Word-asiakirjaan, tekstin tasaamista ja kirjasintyylejä ja paljon muuta.

Muokkaa DOC-tiedostoa - Java

// open an empty doc file, using APACHE POI we cannot create .doc file format from scratch
HWPFDocument doc = new HWPFDocument(new FileInputStream("empty.doc"));
Range range = doc.getRange();
// inset text
CharacterRun run = range.insertAfter("File Format Developer Guide - " +
"Learn about computer files that you come across in " +
"your daily work at: www.fileformat.com ");
OutputStream out = new FileOutputStream("document.pdf");
// save document
doc.write(out);
out.close();

Muunna Word-asiakirjat muihin muotoihin Javalla

pache POI HWPF:n avulla ohjelmistokehittäjät voivat muuntaa Microsoft Word -asiakirjoja mihin tahansa tuettuun tiedostomuotoon helposti. Tällä hetkellä Java-kehittäjät voivat muuntaa Word-asiakirjoja HTML-, FO- ja tekstimuotoon. Paketti org.apache.poi.hwpf.converter sisältää Word-to-HTML- ja Word-to-FO-muuntimia.

Muunna DOC HTML:ksi

// load document
HWPFDocumentCore wordDocument = WordToHtmlUtils.loadDoc(new FileInputStream("document.doc"));
Document newDocument = DocumentBuilderFactory.newInstance().newDocumentBuilder().newDocument();
// initialize WordToHtmlConverter
WordToHtmlConverter wordToHtmlConverter = new WordToHtmlConverter(newDocument );
// process document
wordToHtmlConverter.processDocument( wordDocument );
StringWriter stringWriter = new StringWriter();
Transformer transformer = TransformerFactory.newInstance().newTransformer();
transformer.setOutputProperty( OutputKeys.INDENT, "yes" );
transformer.setOutputProperty( OutputKeys.ENCODING, "utf-8" );
transformer.setOutputProperty( OutputKeys.METHOD, "html" );
transformer.transform(
    new DOMSource( wordToHtmlConverter.getDocument() ),
    new StreamResult( stringWriter ) );
// get html
String html = stringWriter.toString();

Lue tekstiä DOC-tiedostosta

Apache POI HWPF tarjoaa WordExtractor-luokan tekstin lukemiseen Microsoft Word DOC -tiedostomuodosta. Voit poimia tekstiä tiedostosta vain muutaman rivin koodilla.

Pura tekstiä DOC-tiedostosta

// load DOC file
FileInputStream fis = new FileInputStream(new File("document.doc"));
// open file
HWPFDocument doc = new HWPFDocument(fis);
// read text
WordExtractor extractor = new WordExtractor(doc);
// display text
System.out.println(extractor.getText());

Lisää mukautettu ylä- ja alatunniste DOC:hen

Apache POI HWPF:n avulla Java-kehittäjät voivat luoda mukautettuja ylä- ja alatunnisteita Word-asiakirjoihin. Apache POI HWPF on kuvattu "kohtalaisen toimivaksi". Se tukee perustekstin purkamista, erityistä tekstin purkamista, pääsyä ylä- ja alatunnisteisiin sekä tekstiominaisuuksien muuttamiseen. GetText()-menetelmällä voidaan hakea teksti kaikista kappaleista, tai getParagraphText()-menetelmää voidaan käyttää tekstin hakemiseen jokaisesta kappaleesta vuorotellen. 

Hallitse mukautettua ylä- ja alatunnistetta Wordin DOC-tiedostossa


// The path to the documents directory.
String dataDir = Utils.getDataDir(ApacheHeaders.class);
POIFSFileSystem fs = null;
fs = new POIFSFileSystem(new FileInputStream(dataDir + "MyHeader.doc"));
HWPFDocument doc = new HWPFDocument(fs);
int pageNumber = 1;
HeaderStories headerStore = new HeaderStories(doc);
String header = headerStore.getHeader(pageNumber);
System.out.println("Header Is: " + header);
 Suomen