Поиск текста в PDF с использованием Python?

ProblemI»

я пытаюсь определить, к какому типу относится документ (например, ходатайство, переписка, повестка в суд и т. д.), просматривая его текст, предпочтительно используя python. Все PDF-файлы доступны для поиска, но у меня нетМы нашли решение синтаксического анализа с помощью python и применения сценария для его поиска (если сначала не преобразовать его в текстовый файл, но это может потребовать значительных ресурсов для n документов).

Что я'я уже сделал

Мы изучили pypdf, pdfminer, документацию по Adobe PDF и любые вопросы, которые я здесь мог найти (хотя, похоже, ни один из них напрямую не решал эту проблему). PDFminer, кажется, обладает наибольшим потенциалом, но после прочтения документации яЯ даже не уверен, с чего начать.

Существует ли простой и эффективный способ чтения текста в формате PDF по странице, по строке или по всему документу? Или любые другие обходные пути?

Ответы на вопрос(6)

Ваш ответ на вопрос