1. Produktai
  2.   Tekstų apdorojimas
  3.   Java
  4.   Apache POI HWPF

Apache POI HWPF

 
 

Apdorokite „Microsoft Word“ dvejetainius dokumentus

Kurkite, skaitykite, manipuliuokite ir konvertuokite DOC failus naudodami atvirojo kodo „Java“ biblioteką.

Apache POI HWPF yra Apache POI prievadas, skirtas Microsoft Word DOC failo formatui. Tai suteikia DOC failų skaitymo ir rašymo funkcijų, nereikalaujant jokių papildomų bibliotekų. Ji taip pat teikia ribotą tik skaitymo palaikymą senesniems Word 6 ir Word 95 failų formatams. Šiame etape HWPF daugiausia rūpinasi suformatuotu tekstu. Tai suteikia pagrindinį teksto ištraukimą, specifinį teksto ištraukimą, prieigą prie antraštės ir poraštės bei keičiamas teksto funkcijas.

Tai palengvina kūrėjams kurti MS-Word dokumentus su galimybe manipuliuoti pastraipomis, pridėti skirtingus teksto stilius, pridėti lentelę, išgauti tekstą ir dar daugiau.

Previous Next

Darbo su Apache POI HWPF pradžia

Visų pirma, jūsų sistemoje turi būti įdiegtas „Java Development Kit“ (JDK). Jei jau turite, eikite į „Apache“ LV atsiuntimo puslapį, kad archyve gautumėte naujausią stabilią versiją. Išskleiskite ZIP failo turinį bet kuriame kataloge, iš kurio reikiamos bibliotekos gali būti susietos su jūsų Java programa. Tai viskas!

Nurodymas Apache POI jūsų Maven pagrįstame Java projekte yra dar paprasčiau. Viskas, ko jums reikia, tai pridėti toliau nurodytą priklausomybę į savo pom.xml ir leisti IDE gauti bei nurodyti Apache POI Jar failus.

Apache POI Maven priklausomybė

<!-- https://mvnrepository.com/artifact/org.apache.poi/poi -->
  <dependency>
    <groupId>org.apache.poi</groupId>
    <artifactId>poi-scratchpad</artifactId>
    <version>4.0.0</version>
  </dependency>
  

Kurkite ir keiskite „Word“ dokumentus naudodami „Java“ API

„Apache POI HWPF“ leidžia programuotojams kurti naujus „Word“ dokumentus DOC failų formatais. API taip pat leidžia kūrėjams modifikuoti esamus Word dokumentus pagal savo poreikius. API taip pat palaiko pastraipos įtraukimą į „Word“ dokumentą, teksto lygiavimo ir šriftų stilių taikymą ir dar daugiau.

Modifikuoti DOC failą – Java

// open an empty doc file, using APACHE POI we cannot create .doc file format from scratch
HWPFDocument doc = new HWPFDocument(new FileInputStream("empty.doc"));
Range range = doc.getRange();
// inset text
CharacterRun run = range.insertAfter("File Format Developer Guide - " +
"Learn about computer files that you come across in " +
"your daily work at: www.fileformat.com ");
OutputStream out = new FileOutputStream("document.pdf");
// save document
doc.write(out);
out.close();

Konvertuokite „Word“ dokumentus į kitus formatus naudodami „Java“.

Pache POI HWPF leidžia programinės įrangos kūrėjams lengvai konvertuoti Microsoft Word dokumentus į bet kokius palaikomus failų formatus. Šiuo metu „Java“ kūrėjai gali konvertuoti „Word“ dokumentus į HTML, FO ir teksto formatus. org.apache.poi.hwpf.converter pakete yra Word į HTML ir Word į FO keitikliai.

Konvertuoti DOC į HTML

// load document
HWPFDocumentCore wordDocument = WordToHtmlUtils.loadDoc(new FileInputStream("document.doc"));
Document newDocument = DocumentBuilderFactory.newInstance().newDocumentBuilder().newDocument();
// initialize WordToHtmlConverter
WordToHtmlConverter wordToHtmlConverter = new WordToHtmlConverter(newDocument );
// process document
wordToHtmlConverter.processDocument( wordDocument );
StringWriter stringWriter = new StringWriter();
Transformer transformer = TransformerFactory.newInstance().newTransformer();
transformer.setOutputProperty( OutputKeys.INDENT, "yes" );
transformer.setOutputProperty( OutputKeys.ENCODING, "utf-8" );
transformer.setOutputProperty( OutputKeys.METHOD, "html" );
transformer.transform(
    new DOMSource( wordToHtmlConverter.getDocument() ),
    new StreamResult( stringWriter ) );
// get html
String html = stringWriter.toString();

Skaityti tekstą iš DOC failo

„Apache POI HWPF“ suteikia „WordExtractor“ klasę, kad būtų galima skaityti tekstą iš „Microsoft Word DOC“ failo formato. Galite išgauti tekstą iš failo naudodami tik kelias kodo eilutes.

Ištraukite tekstą iš DOC failo

// load DOC file
FileInputStream fis = new FileInputStream(new File("document.doc"));
// open file
HWPFDocument doc = new HWPFDocument(fis);
// read text
WordExtractor extractor = new WordExtractor(doc);
// display text
System.out.println(extractor.getText());

Pridėkite tinkintą antraštę ir poraštę prie DOC

„Apache POI HWPF“ leidžia „Java“ kūrėjams kurti pasirinktines antraštes ir poraštes „Word“ dokumentuose. Apache POI HWPF apibūdinamas kaip „vidutiniškai veikiantis“. Tai palaiko pagrindinį teksto ištraukimą, specifinį teksto ištraukimą, prieigą prie antraštės ir poraštės bei keičiant teksto funkcijas. GetText() metodas gali būti naudojamas norint gauti tekstą iš visų pastraipų, arba getParagraphText() gali būti naudojamas norint gauti tekstą iš kiekvienos pastraipos paeiliui. 

Tvarkykite pasirinktinę antraštę ir poraštę Word DOC faile


// The path to the documents directory.
String dataDir = Utils.getDataDir(ApacheHeaders.class);
POIFSFileSystem fs = null;
fs = new POIFSFileSystem(new FileInputStream(dataDir + "MyHeader.doc"));
HWPFDocument doc = new HWPFDocument(fs);
int pageNumber = 1;
HeaderStories headerStore = new HeaderStories(doc);
String header = headerStore.getHeader(pageNumber);
System.out.println("Header Is: " + header);
 Lietuvių