Detectar e alterar seqüências de caracteres em PDFs

Question

Oct 17, 2013, 12:04 AM

Detectar e alterar seqüências de caracteres em PDFs

Eu quero ser capaz de detectar um padrão em um PDF e de alguma forma sinalizá-lo.

Por exemplo, emeste PDFhá a string*2. Eu quero ser capaz de analisar o PDF, detectar todas as instâncias de*[integer]e faça algo para chamar a atenção para as correspondências (como destacá-las em amarelo ou adicionar um símbolo na margem).

Eu preferiria fazer isso em Python, mas estou aberto a outras linguagens. Até agora eu pude usarpyPdf ler o texto do PDF. Eu posso usar um regex para detectar o padrão. Mas não consegui descobrir como sinalizar a correspondência e salvar novamente o PDF.