Однако, если вы хотите проверить, что текст может быть извлечен, то вы нашли целый мир боли! Использование pdftotext было бы простым решением, которое работало бы в большинстве случаев, но это ни в коем случае не на 100% успешно. Мы нашли много примеров PDF-файлов, из которых pdftotext не может быть извлечен, но библиотеки Java, такие как iText и PDFBox, могут.

учаю файл через HTTP-загрузку и должен быть уверен, что это pdf-файл. Язык программирования - это Python, но это не должно иметь значения.

Я подумал о следующих решениях:

Проверьте, являются ли первые байты строки "% PDF".Это не очень хорошая проверка, но предотвращает случайную загрузку других файлов.

Попробуйте libmagic (команда "file" на bash использует его).Это делает точно такую ​​же проверку, как 1.

Возьмите библиотеку и попробуйте прочитать количество страниц из файла.Если библиотека может прочитать количество страниц, это должен быть действительный файл PDF. Проблема: я знаю, он знает библиотеку для Python, которая может сделать это

Так у кого-нибудь есть какие-нибудь решения для библиотеки или другого трюка?

Спасибо

Ответы на вопрос(5)

Ваш ответ на вопрос