Что касается пункта 4, если вы знаете, какой шрифт будет использоваться, есть несколько лучших решений, чем использование Tesseract, например сопоставление этих шрифтов непосредственно на изображениях ... Основной алгоритм - найти цифры и сопоставить их со всеми возможными символами. (которых всего 10) ... все же реализация сложна.
аюсь научить тессеракт распознавать числа по реальным изображениям газовых счетчиков.
Изображения, которые я использую для обучения, сделаны с помощью камеры, поэтому существует много проблем: плохое разрешение изображений, размытые изображения, плохое освещение или низкий контраст в результате передержки, отражений, теней и т. Д.
Для обучения я создал большое изображение с серией цифр, захваченных изображениями газового счетчика, и я вручную отредактировал поле файла, чтобы создать файлы .tr. В результате распознаются только цифры более четких и четких изображений, в то время как цифры размытых изображений не захватываются тессерактом.