Извлечение текста из выделенных аннотаций в файле PDF
Со вчерашнего дня я пытаюсь извлечь текст из некоторых выделенных аннотаций в одном файле PDF, используя python-poppler-qt4.
Согласно сэта документацияПохоже, я должен получить текст с помощью метода Page.text (), передавая аргумент Rectangle из выделенной аннотации, которую я получаю с помощью Annotation.boundary (). Но я получаю только пустой текст. Кто-нибудь может мне помочь? Я скопировал код ниже и добавил ссылку на используемый мной PDF-файл. Спасибо за любую помощь!
import popplerqt4
import sys
import PyQt4
def main():
doc = popplerqt4.Poppler.Document.load(sys.argv[1])
total_annotations = 0
for i in range(doc.numPages()):
page = doc.page(i)
annotations = page.annotations()
if len(annotations) > 0:
for annotation in annotations:
if isinstance(annotation, popplerqt4.Poppler.Annotation):
total_annotations += 1
if(isinstance(annotation, popplerqt4.Poppler.HighlightAnnotation)):
print str(page.text(annotation.boundary()))
if total_annotations > 0:
print str(total_annotations) + " annotation(s) found"
else:
print "no annotations found"
if __name__ == "__main__":
main()