Java Apache POI читает файл Word (.doc) и использует именованные стили
Я пытаюсь прочитать документ Microsoft Word 2003 (.doc), используя poi-scratchpad-3.8 (HWPF). Мне нужно либо прочитать файл слово за словом, либо символ за символом. В любом случае это хорошо для того, что мне нужно. После прочтения символа или слова мне нужно получить имя стиля, которое применяется к слову / символу. Итак, вопрос в том, как мне получить имя стиля, используемого для слова или символа при чтении файла .doc?
РЕДАКТИРОВАТЬ
Я добавляю код, который использовал для этого. Если кто-то хочет попробовать это, удачи.
private void processDoc(String path) throws Exception {
System.out.println(path);
POIFSFileSystem fis = new POIFSFileSystem(new FileInputStream(path));
HWPFDocument wdDoc = new HWPFDocument(fis);
// list all style names and indexes in stylesheet
for (int j = 0; j < wdDoc.getStyleSheet().numStyles(); j++) {
if (wdDoc.getStyleSheet().getStyleDescription(j) != null) {
System.out.println(j + ": " + wdDoc.getStyleSheet().getStyleDescription(j).getName());
} else {
// getStyleDescription returned null
System.out.println(j + ": " + null);
}
}
// set range for entire document
Range range = wdDoc.getRange();
// loop through all paragraphs in range
for (int i = 0; i < range.numParagraphs(); i++) {
Paragraph p = range.getParagraph(i);
// check if style index is greater than total number of styles
if (wdDoc.getStyleSheet().numStyles() > p.getStyleIndex()) {
System.out.println(wdDoc.getStyleSheet().numStyles() + " -> " + p.getStyleIndex());
StyleDescription style = wdDoc.getStyleSheet().getStyleDescription(p.getStyleIndex());
String styleName = style.getName();
// write style name and associated text
System.out.println(styleName + " -> " + p.text());
} else {
System.out.println("\n" + wdDoc.getStyleSheet().numStyles() + " ----> " + p.getStyleIndex());
}
}