1. Prodotti
  2.   Elaborazione di testi
  3.   Java
  4.   Apache POI HWPF

Apache POI HWPF

 
 

Elabora documenti binari di Microsoft Word

Crea, leggi, manipola e converti file DOC tramite la libreria Java Open Source.

Apache POI HWPF è una porta Apache POI per il formato file Microsoft Word DOC. Fornisce funzionalità per leggere e scrivere file DOC senza bisogno di librerie aggiuntive. Fornisce inoltre un supporto di sola lettura limitato per i formati di file Word 6 e Word 95 meno recenti. In questa fase, HWPF si occupa principalmente del testo formattato. Fornisce l'estrazione di testo di base, l'estrazione di testo specifica, l'accesso a intestazioni e piè di pagina e la modifica delle funzionalità del testo.

Facilita agli sviluppatori la creazione di documenti MS-Word con la possibilità di manipolare paragrafi, aggiungere stili diversi al testo, aggiungere una tabella, estrarre testo e molto altro.

Previous Next

Guida introduttiva ad Apache POI HWPF

Prima di tutto, devi avere il Java Development Kit (JDK) installato sul tuo sistema. Se lo hai già, procedi alla pagina download di Apache POI per ottenere l'ultima versione stabile in un archivio. Estrarre il contenuto del file ZIP in qualsiasi directory da cui è possibile collegare le librerie richieste al proprio programma Java. Questo è tutto!

Fare riferimento a Apache POI nel tuo progetto Java basato su Maven è ancora più semplice. Tutto ciò di cui hai bisogno è aggiungere la seguente dipendenza nel tuo pom.xml e lasciare che il tuo IDE prenda e faccia riferimento ai file Apache POI Jar.

Dipendenza Apache POI Maven

<!-- https://mvnrepository.com/artifact/org.apache.poi/poi -->
  <dependency>
    <groupId>org.apache.poi</groupId>
    <artifactId>poi-scratchpad</artifactId>
    <version>4.0.0</version>
  </dependency>
  

Crea e modifica documenti Word utilizzando le API Java

Apache POI HWPF consente ai programmatori di creare nuovi documenti Word in formati file DOC. L'API consente inoltre agli sviluppatori di modificare i documenti Word esistenti in base alle proprie esigenze. L'API supporta anche l'aggiunta di un paragrafo in un documento Word, l'applicazione di allineamenti di testo e stili di carattere e molto altro.

Modifica file DOC - Java

// open an empty doc file, using APACHE POI we cannot create .doc file format from scratch
HWPFDocument doc = new HWPFDocument(new FileInputStream("empty.doc"));
Range range = doc.getRange();
// inset text
CharacterRun run = range.insertAfter("File Format Developer Guide - " +
"Learn about computer files that you come across in " +
"your daily work at: www.fileformat.com ");
OutputStream out = new FileOutputStream("document.pdf");
// save document
doc.write(out);
out.close();

Converti documenti Word in altri formati usando Java

pache POI HWPF consente agli sviluppatori di software di convertire facilmente documenti Microsoft Word in qualsiasi formato di file supportato. Al momento gli sviluppatori Java possono convertire documenti Word in formato HTML, FO e testo. Il pacchetto org.apache.poi.hwpf.converter contiene convertitori da Word a HTML e da Word a FO.

Converti DOC in HTML

// load document
HWPFDocumentCore wordDocument = WordToHtmlUtils.loadDoc(new FileInputStream("document.doc"));
Document newDocument = DocumentBuilderFactory.newInstance().newDocumentBuilder().newDocument();
// initialize WordToHtmlConverter
WordToHtmlConverter wordToHtmlConverter = new WordToHtmlConverter(newDocument );
// process document
wordToHtmlConverter.processDocument( wordDocument );
StringWriter stringWriter = new StringWriter();
Transformer transformer = TransformerFactory.newInstance().newTransformer();
transformer.setOutputProperty( OutputKeys.INDENT, "yes" );
transformer.setOutputProperty( OutputKeys.ENCODING, "utf-8" );
transformer.setOutputProperty( OutputKeys.METHOD, "html" );
transformer.transform(
    new DOMSource( wordToHtmlConverter.getDocument() ),
    new StreamResult( stringWriter ) );
// get html
String html = stringWriter.toString();

Leggi il testo dal file DOC

Apache POI HWPF fornisce la classe WordExtractor per leggere il testo dal formato di file Microsoft Word DOC. Puoi estrarre il testo dal file con solo poche righe di codice.

Estrai il testo da un file DOC

// load DOC file
FileInputStream fis = new FileInputStream(new File("document.doc"));
// open file
HWPFDocument doc = new HWPFDocument(fis);
// read text
WordExtractor extractor = new WordExtractor(doc);
// display text
System.out.println(extractor.getText());

Aggiungi intestazione e piè di pagina personalizzati a DOC

Apache POI HWPF consente agli sviluppatori Java di creare intestazioni e piè di pagina personalizzati all'interno di documenti Word. Apache POI HWPF è descritto come "moderatamente funzionale". Fornisce supporto per l'estrazione di testo di base, l'estrazione di testo specifico, l'accesso a intestazioni e piè di pagina e la modifica delle funzionalità del testo. Il metodo getText() può essere utilizzato per ottenere il testo da tutti i paragrafi, oppure getParagraphText() può essere utilizzato per recuperare il testo da ogni paragrafo a turno. 

Gestisci intestazione e piè di pagina personalizzati nel file Word DOC


// The path to the documents directory.
String dataDir = Utils.getDataDir(ApacheHeaders.class);
POIFSFileSystem fs = null;
fs = new POIFSFileSystem(new FileInputStream(dataDir + "MyHeader.doc"));
HWPFDocument doc = new HWPFDocument(fs);
int pageNumber = 1;
HeaderStories headerStore = new HeaderStories(doc);
String header = headerStore.getHeader(pageNumber);
System.out.println("Header Is: " + header);
 Italiano