Pobierz numery stron z dokumentu za pomocą pyPDF

Question

Sep 11, 2012, 01:59 AM

Pobierz numery stron z dokumentu za pomocą pyPDF

W tej chwili szukam połączenia kilku plików PDF z pyPdf, ale czasami dane wejściowe nie są w odpowiedniej kolejności, więc szukam skrobania każdej strony pod kątem jej numeru strony, aby określić kolejność, w jakiej powinna się znaleźć (np. Czy ktoś podzielił książkę na 20 10-stronicowych plików PDF i chcę je z powrotem złożyć.

Mam dwa pytania - 1.) Wiem, że czasami numer strony jest gdzieś przechowywany w danych dokumentu, ponieważ widziałem pliki PDF, które renderują w Adobe jako coś [1243] (10 z 150), ale przeczytałem dokumenty tego rodzaju w pyPDF i nie mogę znaleźć żadnych informacji wskazujących numer strony - gdzie jest to przechowywane?

2.) Jeśli avenue # 1 nie jest dostępna, myślę, że mógłbym przejść przez obiekty na danej stronie, aby znaleźć numer strony - prawdopodobnie byłby to jego własny obiekt, który ma w sobie pojedynczy numer. Nie mogę jednak znaleźć żadnego jasnego sposobu na określenie zawartości obiektów. Jeśli biegnę:

pdf.getPage(0).getContents()

Zwykle albo wraca:

{'/Filter': '/FlateDecode'}

lub zwraca listę obiektów IndirectObject (num, num). Naprawdę nie wiem, co z nimi zrobić i nie mam na to żadnej prawdziwej dokumentacji. Czy ktoś zna takie rzeczy, które mogłyby wskazać mi właściwy kierunek?