Recuperar números de página do documento com pyPDF

Question

Sep 11, 2012, 01:59 AM

Recuperar números de página do documento com pyPDF

No momento eu estou olhando para fazer alguns PDF mesclando com pyPdf, mas às vezes as entradas não estão na ordem correta, então eu estou olhando para raspar cada página para o seu número de página para determinar a ordem em que deve ir (por exemplo, se alguém dividiu um livro em 20 PDFs de 10 páginas e eu quero colocá-los de volta juntos).

Eu tenho duas perguntas - 1.) Eu sei que às vezes o número da página é armazenado nos dados do documento em algum lugar, como eu vi PDFs renderizados na Adobe como algo como [1243] (10 de 150), mas eu li documentos deste tipo em pyPDF e não consigo encontrar qualquer informação indicando o número da página - onde isso é armazenado?

2.) Se a avenue # 1 não estiver disponível, acho que posso percorrer os objetos em uma determinada página para tentar encontrar um número de página - provavelmente seria seu próprio objeto que tivesse um único número. No entanto, parece que não consigo encontrar um caminho claro para determinar o conteúdo dos objetos. Se eu corro:

pdf.getPage(0).getContents()

Isso geralmente retorna:

{'/Filter': '/FlateDecode'}

ou retorna uma lista de objetos IndirectObject (num, num). Eu realmente não sei o que fazer com qualquer um desses e não há nenhuma documentação real sobre isso, tanto quanto eu posso dizer. Alguém está familiarizado com esse tipo de coisa que poderia me apontar na direção certa?