algoritmo de decodificação desejado

Recebo regularmente arquivos PDF codificados. A codificação funciona assim:

os PDFs podem ser exibidos corretamente no Acrobat Readerselecione tudo e copie o teste via Acrobat Readere cole em um editor de textomostrará que o conteúdo está codificado

então, exemplos são:

13579 -> 3579;
hello -> jgnnq

é basicamente um deslocamento (talvez troca) de caracteres ASCII.

A questão é como posso encontrar o deslocamento automaticamente quando tenho acesso a apenas algumas amostras. Não tenho certeza se o deslocamento da codificação foi alterado. Tudo o que sei é que algum texto geralmente aparece (se não sempre), por exemplo "Nome:", "Resumo:", "Total:", dentro do PDF.

Obrigado!

editar: Obrigado pelo feedback. Eu tentaria dividir a pergunta em perguntas menores:

Parte 1:Como detectar partes idênticas dentro da string?

questionAnswers(5)

yourAnswerToTheQuestion