algoritmo de decodificación deseado
Recibo archivos PDF codificados regularmente. La codificación funciona así:
los archivos PDF se pueden mostrar correctamente en Acrobat Readerseleccione todo y copie la prueba a través de Acrobat Readery pegar en un editor de textomostrará que el contenido está codificadoentonces, los ejemplos son:
13579 -> 3579;
hello -> jgnnq
Básicamente es un desplazamiento (quizás intercambio) de caracteres ASCII.
La pregunta es cómo puedo encontrar el desplazamiento automáticamente cuando tengo acceso a solo unas pocas muestras. No puedo estar seguro de si se modifica el desplazamiento de codificación. Todo lo que sé es que generalmente aparecerá texto (si no siempre), p. "Nombre:", "Resumen:", "Total:", dentro del PDF.
¡Gracias!
editar: Gracias por la respuesta. Intentaría dividir la pregunta en preguntas más pequeñas:
Parte 1:¿Cómo detectar partes idénticas dentro de la cadena?