1. Táirgí
  2.   Próiseáil Focal
  3.   Java
  4.   Apache POI HWPF

Apache POI HWPF

 
 

Próiseáil Dénártha Doiciméid Microsoft Word

Cruthaigh, Léigh, Ionramháil & Tiontaigh comhaid DOC trí Leabharlann Java Foinse Oscailte.

Is calafort Apache POI é Apache POI HWPF le haghaidh formáid comhaid DOC Microsoft Word. Soláthraíonn sé feidhmiúlacht chun comhaid DOC a léamh agus a scríobh gan aon leabharlanna breise a bheith ag teastáil. Soláthraíonn sé tacaíocht inléite amháin teoranta freisin do na formáidí comhaid Word 6 agus Word 95 níos sine. Ag an gcéim seo, baineann HWPF go príomha le téacs formáidithe. Soláthraíonn sé eastóscadh bunúsach téacs, eastóscadh sainiúil téacs, rochtain ar cheanntásc agus buntásca, agus gnéithe téacs a athrú.

Éascaíonn sé d’fhorbróirí Doiciméid MS-Word a chruthú leis an gcumas ailt a ionramháil, stíleanna éagsúla a chur le téacs, tábla a chur leis, téacs a bhaint as, agus go leor eile.

Previous Next

Tús a chur le Apache POI HWPF

Ar an gcéad dul síos, ní mór duit an Kit Forbartha Java (JDK) a bheith suiteáilte ar do chóras. Má tá sé agat cheana, téigh ar aghaidh chuig leathanach íoslódáil an Apache POI chun an scaoileadh cobhsaí is déanaí a fháil i gcartlann. Sliocht a bhfuil sa chomhad ZIP in aon eolaire ónar féidir na leabharlanna riachtanacha a nascadh le do chlár Java. Sin gach rud!

Tá sé níos simplí fós tagairt a dhéanamh do Apache POI i do thionscadal Java atá bunaithe ar Maven. Níl le déanamh agat ach an spleáchas seo a leanas a chur leis i do pom.xml agus ligean do do IDE na comhaid Apache POI Jar a fháil agus tagairt a dhéanamh dóibh.

Apache POI Maven Spleáchas

<!-- https://mvnrepository.com/artifact/org.apache.poi/poi -->
  <dependency>
    <groupId>org.apache.poi</groupId>
    <artifactId>poi-scratchpad</artifactId>
    <version>4.0.0</version>
  </dependency>
  

Cruthaigh agus Athraigh Doiciméid Word ag baint úsáide as Java APIs

Cuireann Apache POI HWPF ar chumas ríomhchláraitheoirí Doiciméid Word nua a chruthú i bhformáidí comhaid DOC. Ceadaíonn an API freisin d'fhorbróirí Doiciméid Word atá ann cheana féin a mhodhnú de réir a gcuid riachtanas féin. Tacaíonn an API freisin le mír a chur leis i ndoiciméad Word, ailíniú téacs agus stíleanna cló a chur i bhfeidhm, agus go leor eile.

Athraigh an comhad DOC - Java

// open an empty doc file, using APACHE POI we cannot create .doc file format from scratch
HWPFDocument doc = new HWPFDocument(new FileInputStream("empty.doc"));
Range range = doc.getRange();
// inset text
CharacterRun run = range.insertAfter("File Format Developer Guide - " +
"Learn about computer files that you come across in " +
"your daily work at: www.fileformat.com ");
OutputStream out = new FileOutputStream("document.pdf");
// save document
doc.write(out);
out.close();

Tiontaigh Doiciméid Word go Formáidí Eile ag baint úsáide as Java

Cuireann pache POI HWPF ar chumas forbróirí Bogearraí doiciméid Microsoft Word a thiontú go formáidí comhaid ar bith a dtacaítear leo gan stró. Faoi láthair is féidir le forbróirí Java doiciméid Word a thiontú go HTML, FO, agus formáid Téacs. Tá tiontairí Word-go-HTML agus Word-go-FO sa phacáiste org.apache.poi.hwpf.converter.

Tiontaigh DOC go HTML

// load document
HWPFDocumentCore wordDocument = WordToHtmlUtils.loadDoc(new FileInputStream("document.doc"));
Document newDocument = DocumentBuilderFactory.newInstance().newDocumentBuilder().newDocument();
// initialize WordToHtmlConverter
WordToHtmlConverter wordToHtmlConverter = new WordToHtmlConverter(newDocument );
// process document
wordToHtmlConverter.processDocument( wordDocument );
StringWriter stringWriter = new StringWriter();
Transformer transformer = TransformerFactory.newInstance().newTransformer();
transformer.setOutputProperty( OutputKeys.INDENT, "yes" );
transformer.setOutputProperty( OutputKeys.ENCODING, "utf-8" );
transformer.setOutputProperty( OutputKeys.METHOD, "html" );
transformer.transform(
    new DOMSource( wordToHtmlConverter.getDocument() ),
    new StreamResult( stringWriter ) );
// get html
String html = stringWriter.toString();

Léigh Téacs Ó Chomhad DOC

Soláthraíonn Apache POI HWPF rang WordExtractor chun téacs a léamh ó fhormáid comhaid Microsoft Word DOC. Is féidir leat téacs a bhaint as an gcomhad gan ach cúpla líne de chód.

Sliocht téacs ó chomhad DOC

// load DOC file
FileInputStream fis = new FileInputStream(new File("document.doc"));
// open file
HWPFDocument doc = new HWPFDocument(fis);
// read text
WordExtractor extractor = new WordExtractor(doc);
// display text
System.out.println(extractor.getText());

Cuir Ceanntásc & Buntásc Saincheaptha le DOC

Cuireann Apache POI HWPF ar chumas forbróirí Java ceanntásca agus buntásca saincheaptha a chruthú taobh istigh de dhoiciméid Word. Déantar cur síos ar Apache POI HWPF mar "measartha feidhmiúil". Soláthraíonn sé tacaíocht d’eastóscadh bunúsach téacs, eastóscadh sainiúil téacs, rochtain ar cheanntásc agus buntásca, agus gnéithe téacs a athrú. Is féidir an modh getText() a úsáid chun an téacs a fháil ó na hailt go léir, nó is féidir getParagraphText() a úsáid chun an téacs a fháil ó gach alt ina dhiaidh sin. 

Bainistigh Ceanntásc agus Buntásc an Chustaim i gComhad Word DOC


// The path to the documents directory.
String dataDir = Utils.getDataDir(ApacheHeaders.class);
POIFSFileSystem fs = null;
fs = new POIFSFileSystem(new FileInputStream(dataDir + "MyHeader.doc"));
HWPFDocument doc = new HWPFDocument(fs);
int pageNumber = 1;
HeaderStories headerStore = new HeaderStories(doc);
String header = headerStore.getHeader(pageNumber);
System.out.println("Header Is: " + header);
 Gaeilge