Скрипт для поиска текста из PDF

Question

Jul 20, 2012, 04:25 PM

Скрипт для поиска текста из PDF

Problem

На платформе Mac OS X я хотел бы написать скрипт на Python или Tcl для поиска текста в файле PDF и извлечения соответствующих частей. Я ценю любую помощь.

Background

Я пишу сценарии, чтобы заглянуть внутрь PDF, чтобы определить, является ли это счетом, от какой компании и на какой период. Основываясь на этой информации, я переименовываю PDF и перемещаю его в соответствующий каталог. Например, файл, такой какStatement_03948293929384.pdf может стать2012-07-15 Water Bill.pdf и переехал в мойUtilities папка.

What have I done so far? I have searched for PDF-to-plain-text tools, but not found anything yet I have looked into the Tcl wiki and found an example, but could not get it to work (I searched for text in PDF, but not found). I am looking into pdf-parser.py by Didier Stevens I heard of a Python package called pyPdf and will look at it next. Update

Я нашел инструмент командной строки под названиемpdftotext написанный Glyph & amp; Cog, LLC; построен и упакованКарстен Блюм, Этот инструмент прост и решает мою проблему. Я все еще ищу те инструменты, которые могут искать PDF напрямую, без необходимости конвертировать в текстовый файл.

Скрипт для поиска текста из PDF

Ответы на вопрос(1)

Ваш ответ на вопрос

Популярные вопросы

Вы очень активны! Это здорово!

Скрипт для поиска текста из PDF

Ответы на вопрос(1)

Ваш ответ на вопрос

Популярные вопросы