PDF dowiedz się, czy tekst jest podkreślony lub komórka tabeli
Grałem z metodą PdfBox i PDFTextStripperByArea.
Mogłem wyodrębnić informacje, jeśli tekst jestpogrubienie lubitalski, ale nie mogę uzyskać informacji o podkreśleniu.
Z tego, co rozumiem w PDF, podkreślenie odbywa się poprzez rysowanie linii. Więc teoretycznie powinienem być w stanie uzyskać jakąś informację o liniach gdzieś wokół tekstu. Podając te informacje, mógłbym się dowiedzieć, czy tekst jest podkreślony, czy w tabeli.
Oto mój kod do tej pory:
List<TextPosition> textPos = charactersByArticle.get(index);
for (TextPosition t : textPos)
{
if (t.getFont().getFontDescriptor() != null)
{
if (t.getFont().getFontDescriptor().getFontWeight() > BOLD_WEIGHT ||
t.getFont().getFontDescriptor().isForceBold())
{
isBold = true;
}
if (t.getFont().getFontDescriptor().isItalic())
{
isItalic = true;
}
}
}
Próbowałem grać wokół obiektu PDGraphicsState, który jest przetwarzany wprocessEncodedText metoda wPDFStreamEngine klasa, ale brak informacji o znalezionych liniach.
Jakieś sugestie, skąd można uzyskać te informacje?