Я отредактировал свой ответ. Я думаю, что есть некоторые проблемы в самом PDF-файле (на некоторых страницах). Я буду запускать цикл, чтобы увидеть, какой, но он медленный на моей машине .. ;-)
hon 3 у меня есть файл PDF "Ativos_Fevereiro_2018_servidores_rj.pdf" с 6 041 страницами. Я на машине с Ubuntu
На каждой странице есть текст вверху страницы, две строки. И ниже таблицы, с заголовком и двумя столбцами. Каждая таблица в 36 строках, меньше на последней странице
В конце каждой страницы, после таблиц, есть также строка текста
Я хочу создать CSV из этого PDF, рассматривая только таблицы на страницах. И игнорируя тексты до и после таблиц
Изначально я тестировал tabula-py. Но он генерирует пустой файл:
from tabula import convert_into
convert_into("Ativos_Fevereiro_2018_servidores_rj.pdf", "test_s.csv", output_format="csv")
Пожалуйста, кто-нибудь знает другой способ использовать tabula-py для этого типа спроса?
Или другой способ конвертировать PDF в CSV в этом типе файла?