Получить номера страниц из документа с помощью PyPDF

В настоящий момент я планирую выполнить слияние PDF с pyPdf, но иногда входные данные расположены не в правильном порядке, поэтому я пытаюсь просмотреть каждую страницу в поисках номера ее страницы, чтобы определить порядок, в котором она должна идти (например, если кто-то разделил книгу на 20 10-страничных PDF-файлов, и я хочу собрать их вместе).

У меня есть два вопроса - 1.) Я знаю, что иногда номер страницы хранится где-то в данных документа, поскольку я видел PDF-файлы, которые отображаются в Adobe как что-то вроде [1243] (10 из 150), но я читал документы такого рода в pyPDF, и я не могу найти какую-либо информацию, указывающую номер страницы - где она хранится?

2.) Если проспект № 1 недоступен, я думаю, что я мог бы перебрать объекты на данной странице, чтобы попытаться найти номер страницы - вероятно, это был бы его собственный объект, в котором было бы только одно число. Тем не менее, я не могу найти какой-либо четкий способ определения содержимого объектов. Если я бегу:

pdf.getPage(0).getContents()

Это обычно либо возвращает:

{'/Filter': '/FlateDecode'}

или он возвращает список объектов IndirectObject (num, num). Я действительно не знаю, что делать с любым из них, и, насколько я могу судить, никакой реальной документации по этому вопросу нет. Кто-нибудь знаком с такими вещами, которые могут указать мне правильное направление?

Ответы на вопрос(4)

Ваш ответ на вопрос