Tesseract confunde dos números

Estoy escribiendo una aplicación para escanear números de una imagen.

Los números están usando la fuente OCR-B y también pueden contener+ y> caracteres

Esta es mi imagen de origen:

Los escaneos con Tesseract no fueron muy buenos, incluso al limitar el conjunto de caracteres a los caracteres mencionados. Como no encontré ningún archivo de entrenamiento de OCRB para Tesseract, decidí entrenarlo yo mismo.

Yo creéesta imagen de entrenamiento e hizo un archivo de caja a partir de él. El archivo del cuadro es correcto, todas las letras coinciden correctamente.

Luego hice todos los pasosdescrito aquí para crear los otros archivos necesarios.

Usando este conjunto de tessdata OCR-B recién entrenado, obtengo resultados bastante buenos en la imagen de origen, con un pequeño error: Todos1s se confunden con8s y viceversa. El comando utilizado para procesar la imagen era

$ tesseract esr2c.tif ocrb-esr2c -l ocrb

y el resultado de la imagen de origen fue

0800000001456> 8 00000195731208 8 01050008 023+ 08 0301226> 20

Si intercambias todo1s y8s y compárelo con la imagen de origen, la salida sería correcta (excepto las dos últimas letras que puedo ignorar).

¿Cómo pudo pasar esto? ¿Cometí algún error en el proceso de capacitación? ¿Cómo puedo arreglarlo

Respuestas a la pregunta(2)

Su respuesta a la pregunta