Расширенный анализ PDF с использованием Python (извлечение текста без таблиц и т. Д.): Какая библиотека лучше? [закрыто]

Я ищу библиотеку PDF, которая позволит мне извлечь текст из документа PDF. Я посмотрел на PyPDF, и это может очень хорошо извлечь текст из документа PDF. Проблема заключается в том, что если в документе есть таблицы, текст в таблицах извлекается в соответствии с остальным текстом документа. Это может быть проблематично, потому что он создает фрагменты текста, которые бесполезны и выглядят искаженными (например, большое количество чисел смешано).

Я ищу что-то более продвинутое. Я хотел бы извлечь текст из документа PDF,без учета любые таблицы и специальное форматирование. Есть ли библиотека, которая делает это? Или я вынужден выполнить некоторую постобработку выходного текста, чтобы избавиться от этих разделов?

Ответы на вопрос(2)

Ваш ответ на вопрос