Recuperar números de página del documento con pyPDF

Question

Sep 11, 2012, 01:59 AM

Recuperar números de página del documento con pyPDF

En este momento estoy buscando hacer una fusión de PDF con pyPdf, pero a veces las entradas no están en el orden correcto, por lo que estoy buscando raspar cada página para determinar el orden en que debe ir (por ejemplo, si alguien dividió un libro en 20 archivos PDF de 10 páginas y quiero volver a armarlos).

Tengo dos preguntas: 1.) Sé que a veces el número de página se almacena en los datos del documento en algún lugar, ya que he visto archivos PDF que se muestran en Adobe como algo así como [1243] (10 de 150), pero he leído documentos de este tipo en pyPDF y no puedo encontrar ninguna información que indique el número de página, ¿dónde está almacenado?

2.) Si la avenida # 1 no está disponible, creo que podría recorrer los objetos en una página determinada para tratar de encontrar un número de página; es probable que sea su propio objeto que tenga un solo número. Sin embargo, parece que no puedo encontrar una manera clara de determinar el contenido de los objetos. Si corro:

pdf.getPage(0).getContents()

Esto generalmente devuelve:

{'/Filter': '/FlateDecode'}

o devuelve una lista de objetos IndirectObject (num, num). Realmente no sé qué hacer con ninguno de estos y no hay documentación real sobre lo que puedo decir. ¿Hay alguien que esté familiarizado con este tipo de cosas que podrían orientarme en la dirección correcta?