Я отредактировал свой ответ. Я думаю, что есть некоторые проблемы в самом PDF-файле (на некоторых страницах). Я буду запускать цикл, чтобы увидеть, какой, но он медленный на моей машине .. ;-)

Question

Mar 29, 2018, 06:01 PM

Я отредактировал свой ответ. Я думаю, что есть некоторые проблемы в самом PDF-файле (на некоторых страницах). Я буду запускать цикл, чтобы увидеть, какой, но он медленный на моей машине .. ;-)

hon 3 у меня есть файл PDF "Ativos_Fevereiro_2018_servidores_rj.pdf" с 6 041 страницами. Я на машине с Ubuntu

На каждой странице есть текст вверху страницы, две строки. И ниже таблицы, с заголовком и двумя столбцами. Каждая таблица в 36 строках, меньше на последней странице

В конце каждой страницы, после таблиц, есть также строка текста

Я хочу создать CSV из этого PDF, рассматривая только таблицы на страницах. И игнорируя тексты до и после таблиц

Изначально я тестировал tabula-py. Но он генерирует пустой файл:

from tabula import convert_into

convert_into("Ativos_Fevereiro_2018_servidores_rj.pdf", "test_s.csv", output_format="csv")

Пожалуйста, кто-нибудь знает другой способ использовать tabula-py для этого типа спроса?

Или другой способ конвертировать PDF в CSV в этом типе файла?

Ответы на вопрос(1)

Ваш ответ на вопрос

Популярные вопросы

Вы очень активны! Это здорово!

Ответы на вопрос(1)

Ваш ответ на вопрос

Популярные вопросы