Скрипт для поиска текста из PDF
На платформе Mac OS X я хотел бы написать скрипт на Python или Tcl для поиска текста в файле PDF и извлечения соответствующих частей. Я ценю любую помощь.
BackgroundЯ пишу сценарии, чтобы заглянуть внутрь PDF, чтобы определить, является ли это счетом, от какой компании и на какой период. Основываясь на этой информации, я переименовываю PDF и перемещаю его в соответствующий каталог. Например, файл, такой какStatement_03948293929384.pdf
может стать2012-07-15 Water Bill.pdf
и переехал в мойUtilities
папка.
pdf-parser.py
by Didier Stevens
I heard of a Python package called pyPdf and will look at it next.
Update
Я нашел инструмент командной строки под названиемpdftotext написанный Glyph & amp; Cog, LLC; построен и упакованКарстен Блюм, Этот инструмент прост и решает мою проблему. Я все еще ищу те инструменты, которые могут искать PDF напрямую, без необходимости конвертировать в текстовый файл.