Apache POI HWPF
Memproses Dokumen Biner Microsoft Word
Buat, Baca, Manipulasi & Konversi file DOC melalui Open Source Java Library.
Apache POI HWPF adalah port Apache POI untuk format file DOC Microsoft Word. Ini menyediakan fungsionalitas untuk membaca dan menulis file DOC tanpa memerlukan perpustakaan tambahan. Ini juga menyediakan dukungan baca-saja terbatas untuk format file Word 6 dan Word 95 yang lebih lama. Pada tahap ini, HWPF terutama berkaitan dengan teks yang diformat. Ini menyediakan ekstraksi teks dasar, ekstraksi teks tertentu, akses ke header & footer, dan mengubah fitur teks.
Ini memfasilitasi pengembang untuk membuat Dokumen MS-Word dengan kemampuan untuk memanipulasi paragraf, menambahkan gaya yang berbeda ke teks, menambahkan tabel, mengekstrak teks, dan banyak lagi.
Memulai dengan Apache POI HWPF
Pertama-tama, Anda harus menginstal Java Development Kit (JDK) di sistem Anda. Jika Anda sudah memilikinya, lanjutkan ke halaman unduh Apache POI untuk mendapatkan rilis stabil terbaru dalam arsip. Ekstrak konten file ZIP di direktori mana pun dari mana pustaka yang diperlukan dapat ditautkan ke program Java Anda. Itu semuanya!
Merujuk Apache POI dalam proyek Java berbasis Maven Anda bahkan lebih sederhana. Yang Anda butuhkan hanyalah menambahkan dependensi berikut di pom.xml Anda dan biarkan IDE Anda mengambil dan mereferensikan file Apache POI Jar.
Ketergantungan Apache POI Maven
<!-- https://mvnrepository.com/artifact/org.apache.poi/poi -->
<dependency>
<groupId>org.apache.poi</groupId>
<artifactId>poi-scratchpad</artifactId>
<version>4.0.0</version>
</dependency>
Membuat dan Memodifikasi Dokumen Word menggunakan Java API
Apache POI HWPF memungkinkan pemrogram untuk membuat Dokumen Word baru dalam format file DOC. API juga memungkinkan pengembang untuk memodifikasi Dokumen Word yang ada sesuai dengan kebutuhan mereka sendiri. API juga mendukung penambahan paragraf dalam dokumen Word, menerapkan perataan teks & gaya font, dan banyak lagi.
Ubah file DOC - Java
// open an empty doc file, using APACHE POI we cannot create .doc file format from scratch
HWPFDocument doc = new HWPFDocument(new FileInputStream("empty.doc"));
Range range = doc.getRange();
// inset text
CharacterRun run = range.insertAfter("File Format Developer Guide - " +
"Learn about computer files that you come across in " +
"your daily work at: www.fileformat.com ");
OutputStream out = new FileOutputStream("document.pdf");
// save document
doc.write(out);
out.close();
Konversi Dokumen Word ke Format Lain menggunakan Java
pache POI HWPF memungkinkan pengembang Perangkat Lunak untuk mengonversi dokumen Microsoft word ke format file apa pun yang didukung dengan mudah. Saat ini pengembang Java dapat mengonversi dokumen Word ke format HTML, FO, dan Teks. Paket org.apache.poi.hwpf.converter berisi konverter Word-to-HTML dan Word-to-FO.
Konversi DOC ke HTML
// load document
HWPFDocumentCore wordDocument = WordToHtmlUtils.loadDoc(new FileInputStream("document.doc"));
Document newDocument = DocumentBuilderFactory.newInstance().newDocumentBuilder().newDocument();
// initialize WordToHtmlConverter
WordToHtmlConverter wordToHtmlConverter = new WordToHtmlConverter(newDocument );
// process document
wordToHtmlConverter.processDocument( wordDocument );
StringWriter stringWriter = new StringWriter();
Transformer transformer = TransformerFactory.newInstance().newTransformer();
transformer.setOutputProperty( OutputKeys.INDENT, "yes" );
transformer.setOutputProperty( OutputKeys.ENCODING, "utf-8" );
transformer.setOutputProperty( OutputKeys.METHOD, "html" );
transformer.transform(
new DOMSource( wordToHtmlConverter.getDocument() ),
new StreamResult( stringWriter ) );
// get html
String html = stringWriter.toString();
Baca Teks Dari File DOC
Apache POI HWPF menyediakan kelas WordExtractor untuk membaca teks dari format file Microsoft Word DOC. Anda dapat mengekstrak teks dari file hanya dengan beberapa baris kode.
Ekstrak teks dari file DOC
// load DOC file
FileInputStream fis = new FileInputStream(new File("document.doc"));
// open file
HWPFDocument doc = new HWPFDocument(fis);
// read text
WordExtractor extractor = new WordExtractor(doc);
// display text
System.out.println(extractor.getText());
Tambahkan Header & Footer Kustom ke DOC
Apache POI HWPF memungkinkan pengembang Java untuk membuat header dan footer khusus di dalam dokumen Word. Apache POI HWPF digambarkan sebagai "cukup fungsional". Ini memberikan dukungan untuk ekstraksi teks dasar, ekstraksi teks tertentu, akses ke header & footer, dan mengubah fitur teks. Metode getText() dapat digunakan untuk mendapatkan teks dari semua paragraf, atau getParagraphText() dapat digunakan untuk mengambil teks dari setiap paragraf secara bergantian.
Kelola Header & Footer Kustom di File DOC Word
// The path to the documents directory.
String dataDir = Utils.getDataDir(ApacheHeaders.class);
POIFSFileSystem fs = null;
fs = new POIFSFileSystem(new FileInputStream(dataDir + "MyHeader.doc"));
HWPFDocument doc = new HWPFDocument(fs);
int pageNumber = 1;
HeaderStories headerStore = new HeaderStories(doc);
String header = headerStore.getHeader(pageNumber);
System.out.println("Header Is: " + header);