1. Produkti
  2.   Tekstapstrāde
  3.   Java
  4.   Apache POI HWPF

Apache POI HWPF

 
 

Apstrādājiet Microsoft Word bināros dokumentus

Izveidojiet, lasiet, manipulējiet un konvertējiet DOC failus, izmantojot atvērtā pirmkoda Java bibliotēku.

Apache POI HWPF ir Apache POI ports Microsoft Word DOC faila formātam. Tas nodrošina funkcionalitāti DOC failu lasīšanai un rakstīšanai, neizmantojot papildu bibliotēkas. Tas arī nodrošina ierobežotu tikai lasīšanas atbalstu vecākiem Word 6 un Word 95 failu formātiem. Šajā posmā HWPF galvenokārt ir saistīts ar formatētu tekstu. Tas nodrošina pamata teksta izvilkšanu, specifisku teksta izvilkšanu, piekļuvi galvenēm un kājenēm un teksta funkciju mainīšanu.

Tas palīdz izstrādātājiem izveidot MS-Word dokumentus ar iespēju manipulēt ar rindkopām, pievienot tekstam dažādus stilus, pievienot tabulu, izvilkt tekstu un daudz ko citu.

Previous Next

Darba sākšana ar Apache POI HWPF

Pirmkārt, jūsu sistēmā ir jābūt instalētam Java izstrādes komplektam (JDK). Ja jums tas jau ir, dodieties uz Apache POI lejupielādes lapu, lai arhīvā iegūtu jaunāko stabilo versiju. Izvelciet ZIP faila saturu jebkurā direktorijā, no kuras vajadzīgās bibliotēkas var saistīt ar jūsu Java programmu. Tas ir viss!

Atsauces uz Apache POI jūsu Maven balstītajā Java projektā ir vēl vienkāršāk. Viss, kas jums nepieciešams, ir pievienot tālāk norādīto atkarību savā pom.xml un ļaut IDE ielādēt un atsaukties uz Apache POI Jar failus.

Apache POI Maven atkarība

<!-- https://mvnrepository.com/artifact/org.apache.poi/poi -->
  <dependency>
    <groupId>org.apache.poi</groupId>
    <artifactId>poi-scratchpad</artifactId>
    <version>4.0.0</version>
  </dependency>
  

Izveidojiet un modificējiet Word dokumentus, izmantojot Java API

Apache POI HWPF ļauj programmētājiem izveidot jaunus Word dokumentus DOC failu formātos. API arī ļauj izstrādātājiem modificēt esošos Word dokumentus atbilstoši savām vajadzībām. API atbalsta arī rindkopas pievienošanu Word dokumentam, teksta līdzinājumu un fontu stilu piemērošanu un daudz ko citu.

Modificēt DOC failu - Java

// open an empty doc file, using APACHE POI we cannot create .doc file format from scratch
HWPFDocument doc = new HWPFDocument(new FileInputStream("empty.doc"));
Range range = doc.getRange();
// inset text
CharacterRun run = range.insertAfter("File Format Developer Guide - " +
"Learn about computer files that you come across in " +
"your daily work at: www.fileformat.com ");
OutputStream out = new FileOutputStream("document.pdf");
// save document
doc.write(out);
out.close();

Konvertējiet Word dokumentus citos formātos, izmantojot Java

pache POI HWPF ļauj programmatūras izstrādātājiem viegli pārvērst Microsoft Word dokumentus jebkurā atbalstītā failu formātā. Pašlaik Java izstrādātāji var pārvērst Word dokumentus HTML, FO un teksta formātos. Pakotnē org.apache.poi.hwpf.converter ir iekļauti Word-HTML un Word-FO pārveidotāji.

Konvertējiet DOC uz HTML

// load document
HWPFDocumentCore wordDocument = WordToHtmlUtils.loadDoc(new FileInputStream("document.doc"));
Document newDocument = DocumentBuilderFactory.newInstance().newDocumentBuilder().newDocument();
// initialize WordToHtmlConverter
WordToHtmlConverter wordToHtmlConverter = new WordToHtmlConverter(newDocument );
// process document
wordToHtmlConverter.processDocument( wordDocument );
StringWriter stringWriter = new StringWriter();
Transformer transformer = TransformerFactory.newInstance().newTransformer();
transformer.setOutputProperty( OutputKeys.INDENT, "yes" );
transformer.setOutputProperty( OutputKeys.ENCODING, "utf-8" );
transformer.setOutputProperty( OutputKeys.METHOD, "html" );
transformer.transform(
    new DOMSource( wordToHtmlConverter.getDocument() ),
    new StreamResult( stringWriter ) );
// get html
String html = stringWriter.toString();

Lasiet tekstu no DOC faila

Apache POI HWPF nodrošina WordExtractor klasi, lai lasītu tekstu no Microsoft Word DOC faila formāta. Varat izvilkt tekstu no faila, izmantojot tikai dažas koda rindiņas.

Izvilkt tekstu no DOC faila

// load DOC file
FileInputStream fis = new FileInputStream(new File("document.doc"));
// open file
HWPFDocument doc = new HWPFDocument(fis);
// read text
WordExtractor extractor = new WordExtractor(doc);
// display text
System.out.println(extractor.getText());

Pievienojiet pielāgotu galveni un kājeni dokumentam DOC

Apache POI HWPF ļauj Java izstrādātājiem Word dokumentos izveidot pielāgotas galvenes un kājenes. Apache POI HWPF ir aprakstīts kā "vidēji funkcionāls". Tas nodrošina atbalstu pamata teksta izvilkšanai, īpaša teksta izvilkšanai, piekļuvei galvenēm un kājenēm un teksta funkciju maiņai. Metodi getText() var izmantot, lai iegūtu tekstu no visām rindkopām, vai getParagraphText() var izmantot, lai pēc kārtas izgūtu tekstu no katras rindkopas. 

Pārvaldiet pielāgoto galveni un kājeni Word DOC failā


// The path to the documents directory.
String dataDir = Utils.getDataDir(ApacheHeaders.class);
POIFSFileSystem fs = null;
fs = new POIFSFileSystem(new FileInputStream(dataDir + "MyHeader.doc"));
HWPFDocument doc = new HWPFDocument(fs);
int pageNumber = 1;
HeaderStories headerStore = new HeaderStories(doc);
String header = headerStore.getHeader(pageNumber);
System.out.println("Header Is: " + header);
 Latviski