Seitenzahlen aus dem Dokument mit pyPDF abrufen

Question

Sep 11, 2012, 01:59 AM

Seitenzahlen aus dem Dokument mit pyPDF abrufen

Momentan bin ich mit dem Zusammenführen von PDF-Dateien mit pyPdf beschäftigt, aber manchmal sind die Eingaben nicht in der richtigen Reihenfolge. Daher schabe ich jede Seite nach ihrer Seitenzahl ab, um die Reihenfolge zu bestimmen, in der sie eingefügt werden soll (z. B. wenn Jemand hat ein Buch in 20 10-seitige PDFs aufgeteilt und ich möchte sie wieder zusammenfügen.

Ich habe zwei Fragen - 1.) Ich weiß, dass die Seitenzahl manchmal irgendwo in den Dokumentdaten gespeichert ist, da ich PDFs gesehen habe, die auf Adobe als etwas wie [1243] (10 von 150) gerendert werden, aber ich habe gelesen Dokumente dieser Art in pyPDF und ich kann keine Informationen finden, die die Seitenzahl angeben - wo ist diese gespeichert?

2.) Wenn die Avenue Nr. 1 nicht verfügbar ist, könnte ich die Objekte auf einer bestimmten Seite durchlaufen, um eine Seitenzahl zu finden. Wahrscheinlich handelt es sich dabei um ein eigenes Objekt mit einer einzelnen Nummer. Es scheint mir jedoch nicht klar zu sein, wie ich den Inhalt von Objekten bestimmen kann. Wenn ich renne:

pdf.getPage(0).getContents()

Dies ergibt normalerweise entweder:

{'/Filter': '/FlateDecode'}

oder es wird eine Liste von IndirectObject-Objekten (num, num) zurückgegeben. Ich weiß nicht wirklich, was ich damit anfangen soll, und es gibt keine wirkliche Dokumentation, soweit ich das beurteilen kann. Kennt jemand so etwas, das mich in die richtige Richtung weisen könnte?