Однако, если вы хотите проверить, что текст может быть извлечен, то вы нашли целый мир боли! Использование pdftotext было бы простым решением, которое работало бы в большинстве случаев, но это ни в коем случае не на 100% успешно. Мы нашли много примеров PDF-файлов, из которых pdftotext не может быть извлечен, но библиотеки Java, такие как iText и PDFBox, могут.

Question

Feb 17, 2009, 11:53 PM

Однако, если вы хотите проверить, что текст может быть извлечен, то вы нашли целый мир боли! Использование pdftotext было бы простым решением, которое работало бы в большинстве случаев, но это ни в коем случае не на 100% успешно. Мы нашли много примеров PDF-файлов, из которых pdftotext не может быть извлечен, но библиотеки Java, такие как iText и PDFBox, могут.

учаю файл через HTTP-загрузку и должен быть уверен, что это pdf-файл. Язык программирования - это Python, но это не должно иметь значения.

Я подумал о следующих решениях:

Проверьте, являются ли первые байты строки "% PDF".Это не очень хорошая проверка, но предотвращает случайную загрузку других файлов.

Попробуйте libmagic (команда "file" на bash использует его).Это делает точно такую же проверку, как 1.

Возьмите библиотеку и попробуйте прочитать количество страниц из файла.Если библиотека может прочитать количество страниц, это должен быть действительный файл PDF. Проблема: я знаю, он знает библиотеку для Python, которая может сделать это

Так у кого-нибудь есть какие-нибудь решения для библиотеки или другого трюка?

Спасибо

Ответы на вопрос(5)

Ваш ответ на вопрос

Популярные вопросы

Вы очень активны! Это здорово!

Ответы на вопрос(5)

Ваш ответ на вопрос

Популярные вопросы