Apache POI HWPF
Microsoft Word İkili Belgelerini İşleyin
Açık Kaynak Java Kitaplığı aracılığıyla DOC dosyalarını oluşturun, okuyun, işleyin ve dönüştürün.
Apache POI HWPF, Microsoft Word DOC dosya formatı için bir Apache POI bağlantı noktasıdır. Herhangi bir ek kitaplığa ihtiyaç duymadan DOC dosyalarını okumak ve yazmak için işlevsellik sağlar. Ayrıca eski Word 6 ve Word 95 dosya biçimleri için sınırlı salt okunur destek sağlar. Bu aşamada, HWPF esas olarak biçimlendirilmiş metinle ilgilenir. Temel metin çıkarma, belirli metin çıkarma, üstbilgi ve altbilgilere erişim ve metin özelliklerini değiştirme sağlar.
Geliştiricilerin, paragrafları değiştirme, metne farklı stiller ekleme, tablo ekleme, metin çıkarma ve çok daha fazlasını yapma yeteneği ile MS-Word Belgeleri oluşturmalarını kolaylaştırır.
Apache POI HWPF'ye Başlarken
Öncelikle sisteminizde Java Development Kit (JDK) kurulu olmalıdır. Zaten sahipseniz, bir arşivdeki en son kararlı sürümü almak için Apache POI'nin indirme sayfasına gidin. ZIP dosyasının içeriğini, gerekli kitaplıkların Java programınıza bağlanabileceği herhangi bir dizine çıkarın. Hepsi bu!
Maven tabanlı Java projenizde Apache POI'ye başvurmak daha da basittir. Tek ihtiyacınız olan, pom.xml dosyanıza aşağıdaki bağımlılığı eklemek ve IDE'nizin Apache POI Jar dosyalarını almasına ve referans vermesine izin vermektir.
Apache POI Maven Bağımlılığı
<!-- https://mvnrepository.com/artifact/org.apache.poi/poi -->
<dependency>
<groupId>org.apache.poi</groupId>
<artifactId>poi-scratchpad</artifactId>
<version>4.0.0</version>
</dependency>
Java API'lerini kullanarak Word Belgeleri Oluşturun ve Değiştirin
Apache POI HWPF, programcıların DOC dosya biçimlerinde yeni Word Belgeleri oluşturmasını sağlar. API ayrıca geliştiricilerin mevcut Word Belgelerini kendi ihtiyaçlarına göre değiştirmelerine olanak tanır. API ayrıca bir Word belgesine paragraf eklemeyi, metin hizalamaları ve yazı tipi stilleri uygulamayı ve çok daha fazlasını destekler.
DOC dosyasını değiştir - Java
// open an empty doc file, using APACHE POI we cannot create .doc file format from scratch
HWPFDocument doc = new HWPFDocument(new FileInputStream("empty.doc"));
Range range = doc.getRange();
// inset text
CharacterRun run = range.insertAfter("File Format Developer Guide - " +
"Learn about computer files that you come across in " +
"your daily work at: www.fileformat.com ");
OutputStream out = new FileOutputStream("document.pdf");
// save document
doc.write(out);
out.close();
Java Kullanarak Word Belgelerini Diğer Biçimlere Dönüştürün
pache POI HWPF, Yazılım geliştiricilerinin Microsoft word belgelerini desteklenen herhangi bir dosya biçimine kolaylıkla dönüştürmesini sağlar. Şu anda Java geliştiricileri, Word belgelerini HTML, FO ve Metin biçimine dönüştürebilir. org.apache.poi.hwpf.converter paketi Word'den HTML'ye ve Word'den FO'ya dönüştürücüler içerir.
DOC'yi HTML'ye dönüştür
// load document
HWPFDocumentCore wordDocument = WordToHtmlUtils.loadDoc(new FileInputStream("document.doc"));
Document newDocument = DocumentBuilderFactory.newInstance().newDocumentBuilder().newDocument();
// initialize WordToHtmlConverter
WordToHtmlConverter wordToHtmlConverter = new WordToHtmlConverter(newDocument );
// process document
wordToHtmlConverter.processDocument( wordDocument );
StringWriter stringWriter = new StringWriter();
Transformer transformer = TransformerFactory.newInstance().newTransformer();
transformer.setOutputProperty( OutputKeys.INDENT, "yes" );
transformer.setOutputProperty( OutputKeys.ENCODING, "utf-8" );
transformer.setOutputProperty( OutputKeys.METHOD, "html" );
transformer.transform(
new DOMSource( wordToHtmlConverter.getDocument() ),
new StreamResult( stringWriter ) );
// get html
String html = stringWriter.toString();
DOC Dosyasından Metin Oku
Apache POI HWPF, Microsoft Word DOC dosya formatından metin okumak için WordExtractor sınıfı sağlar. Yalnızca birkaç satır kodla dosyadan metin çıkarabilirsiniz.
DOC dosyasından metin ayıklayın
// load DOC file
FileInputStream fis = new FileInputStream(new File("document.doc"));
// open file
HWPFDocument doc = new HWPFDocument(fis);
// read text
WordExtractor extractor = new WordExtractor(doc);
// display text
System.out.println(extractor.getText());
DOC'a Özel Üstbilgi ve Altbilgi Ekle
Apache POI HWPF, Java geliştiricilerinin Word belgelerinin içinde özel üstbilgiler ve altbilgiler oluşturmasını sağlar. Apache POI HWPF, "orta derecede işlevsel" olarak tanımlanır. Temel metin çıkarma, belirli metin çıkarma, üstbilgi ve altbilgilere erişim ve metin özelliklerini değiştirme desteği sağlar. Tüm paragraflardan metni almak için getText() yöntemi kullanılabilir veya sırayla her paragraftan metni almak için getParagraphText() kullanılabilir.
Word DOC Dosyasında Özel Üstbilgi ve Altbilgiyi Yönetin
// The path to the documents directory.
String dataDir = Utils.getDataDir(ApacheHeaders.class);
POIFSFileSystem fs = null;
fs = new POIFSFileSystem(new FileInputStream(dataDir + "MyHeader.doc"));
HWPFDocument doc = new HWPFDocument(fs);
int pageNumber = 1;
HeaderStories headerStore = new HeaderStories(doc);
String header = headerStore.getHeader(pageNumber);
System.out.println("Header Is: " + header);