1. Produse
  2.   Procesarea cuvântului
  3.   Java
  4.   Apache POI HWPF

Apache POI HWPF

 
 

Procesați documentele binare Microsoft Word

Creați, citiți, manipulați și convertiți fișiere DOC prin Open Source Java Library.

Apache POI HWPF este un port Apache POI pentru formatul de fișier Microsoft Word DOC. Oferă funcționalitate pentru citirea și scrierea fișierelor DOC fără a fi nevoie de biblioteci suplimentare. De asemenea, oferă suport limitat doar pentru citire pentru formatele mai vechi de fișiere Word 6 și Word 95. În această etapă, HWPF se preocupă în principal de textul formatat. Oferă extragerea de bază a textului, extragerea textului specific, acces la antet și subsol și funcții de modificare a textului.

Facilitează dezvoltatorilor să creeze documente MS-Word cu capacitatea de a manipula paragrafe, de a adăuga diferite stiluri la text, de a adăuga un tabel, de a extrage text și multe altele.

Previous Next

Noțiuni introductive cu Apache POI HWPF

În primul rând, trebuie să aveți Java Development Kit (JDK) instalat pe sistemul dvs. Dacă îl aveți deja, treceți la pagina de descărcare a Apache POI pentru a obține cea mai recentă versiune stabilă într-o arhivă. Extrageți conținutul fișierului ZIP în orice director de unde bibliotecile necesare pot fi legate la programul dvs. Java. Asta e tot!

Referința la Apache POI în proiectul Java bazat pe Maven este și mai simplă. Tot ce aveți nevoie este să adăugați următoarea dependență în pom.xml și să lăsați IDE-ul să preia și să facă referire la fișierele Apache POI Jar.

Dependența Apache POI Maven

<!-- https://mvnrepository.com/artifact/org.apache.poi/poi -->
  <dependency>
    <groupId>org.apache.poi</groupId>
    <artifactId>poi-scratchpad</artifactId>
    <version>4.0.0</version>
  </dependency>
  

Creați și modificați documente Word folosind API-uri Java

Apache POI HWPF le permite programatorilor să creeze noi documente Word în formate de fișiere DOC. De asemenea, API-ul permite dezvoltatorilor să modifice documentele Word existente în funcție de propriile nevoi. API-ul acceptă, de asemenea, adăugarea unui paragraf într-un document Word, aplicarea alinierii textului și stilurilor de font și multe altele.

Modificați fișierul DOC - Java

// open an empty doc file, using APACHE POI we cannot create .doc file format from scratch
HWPFDocument doc = new HWPFDocument(new FileInputStream("empty.doc"));
Range range = doc.getRange();
// inset text
CharacterRun run = range.insertAfter("File Format Developer Guide - " +
"Learn about computer files that you come across in " +
"your daily work at: www.fileformat.com ");
OutputStream out = new FileOutputStream("document.pdf");
// save document
doc.write(out);
out.close();

Convertiți documente Word în alte formate folosind Java

pache POI HWPF le permite dezvoltatorilor de software să convertească cu ușurință documentele Microsoft Word în orice format de fișier acceptat. În prezent, dezvoltatorii Java pot converti documentele Word în format HTML, FO și Text. Pachetul org.apache.poi.hwpf.converter conține convertoare Word-to-HTML și Word-to-FO.

Convertiți DOC în HTML

// load document
HWPFDocumentCore wordDocument = WordToHtmlUtils.loadDoc(new FileInputStream("document.doc"));
Document newDocument = DocumentBuilderFactory.newInstance().newDocumentBuilder().newDocument();
// initialize WordToHtmlConverter
WordToHtmlConverter wordToHtmlConverter = new WordToHtmlConverter(newDocument );
// process document
wordToHtmlConverter.processDocument( wordDocument );
StringWriter stringWriter = new StringWriter();
Transformer transformer = TransformerFactory.newInstance().newTransformer();
transformer.setOutputProperty( OutputKeys.INDENT, "yes" );
transformer.setOutputProperty( OutputKeys.ENCODING, "utf-8" );
transformer.setOutputProperty( OutputKeys.METHOD, "html" );
transformer.transform(
    new DOMSource( wordToHtmlConverter.getDocument() ),
    new StreamResult( stringWriter ) );
// get html
String html = stringWriter.toString();

Citiți textul din fișierul DOC

Apache POI HWPF oferă clasa WordExtractor pentru a citi text din formatul de fișier Microsoft Word DOC. Puteți extrage text din fișier cu doar câteva linii de cod.

Extrageți text dintr-un fișier DOC

// load DOC file
FileInputStream fis = new FileInputStream(new File("document.doc"));
// open file
HWPFDocument doc = new HWPFDocument(fis);
// read text
WordExtractor extractor = new WordExtractor(doc);
// display text
System.out.println(extractor.getText());

Adăugați antet și subsol personalizate în DOC

Apache POI HWPF le permite dezvoltatorilor Java să creeze anteturi și subsoluri personalizate în documentele Word. Apache POI HWPF este descris ca fiind „moderat funcțional”. Oferă suport pentru extragerea de bază a textului, extragerea textului specific, acces la antet și subsol și funcții de modificare a textului. Metoda getText() poate fi folosită pentru a obține textul din toate paragrafele sau getParagraphText() poate fi folosit pentru a prelua textul din fiecare paragraf pe rând. 

Gestionați antetul și subsolul personalizate în fișierul Word DOC


// The path to the documents directory.
String dataDir = Utils.getDataDir(ApacheHeaders.class);
POIFSFileSystem fs = null;
fs = new POIFSFileSystem(new FileInputStream(dataDir + "MyHeader.doc"));
HWPFDocument doc = new HWPFDocument(fs);
int pageNumber = 1;
HeaderStories headerStore = new HeaderStories(doc);
String header = headerStore.getHeader(pageNumber);
System.out.println("Header Is: " + header);
 Română