Как найти линии границы таблицы в PDF с помощью PDFBox?
Я пытаюсь найти границы таблиц в формате PDF. я использовалPrintTextLocations
класс pdfBox для составления слов. Сейчас я ищу, чтобы найти координаты различных линий, которые образуют таблицу. Я пытался с помощьюorg.apache.pdfbox.pdfviewer.PageDrawer
, но я не могу найти какой-либо символ / графическое изображение, содержащее эти строки. Я попробовал два способа:
Первый:
Graphics g = null;
Dimension d = new Dimension();
d.setSize(700, 700);
PageDrawer pageDrawer = new PageDrawer();
pageDrawer.drawPage(g, myPage, d);
Это дало мне исключение нулевого указателя. Итак, во-вторых, я пытался переопределитьprocessStream
функция, но я не могу получить инсульт. Пожалуйста, помогите мне. Я открыт в использовании любой другой библиотеки, которая дает мне координаты линий в таблице. И еще один быстрый вопрос, что это за объекты - границы этих таблиц в pdfbox? Это графика или персонажи?
Вот ссылка на образец PDF, который я пытаюсь разобрать:http://stats.bls.gov/news.release/pdf/empsit.pdf и пытается получить строки таблицы на странице № 8.
редактировать : Я столкнулся с другой проблемой, при разборе этой страницы в формате PDF № 1, я не могу получить какие-либо строки, какpathIterator
вprintPath()
функция пуста, хотяstrokePath()
функция вызывается для каждой строки. Как работать с этим PDF?