Скрипт для поиска текста из PDF

Problem

На платформе Mac OS X я хотел бы написать скрипт на Python или Tcl для поиска текста в файле PDF и извлечения соответствующих частей. Я ценю любую помощь.

Background

Я пишу сценарии, чтобы заглянуть внутрь PDF, чтобы определить, является ли это счетом, от какой компании и на какой период. Основываясь на этой информации, я переименовываю PDF и перемещаю его в соответствующий каталог. Например, файл, такой какStatement_03948293929384.pdf может стать2012-07-15 Water Bill.pdf и переехал в мойUtilities папка.

What have I done so far? I have searched for PDF-to-plain-text tools, but not found anything yet I have looked into the Tcl wiki and found an example, but could not get it to work (I searched for text in PDF, but not found). I am looking into pdf-parser.py by Didier Stevens I heard of a Python package called pyPdf and will look at it next. Update

Я нашел инструмент командной строки под названиемpdftotext написанный Glyph & amp; Cog, LLC; построен и упакованКарстен Блюм, Этот инструмент прост и решает мою проблему. Я все еще ищу те инструменты, которые могут искать PDF напрямую, без необходимости конвертировать в текстовый файл.

Ответы на вопрос(1)

Ваш ответ на вопрос