Ищите маленький совет по машинному обучению на питоне

Я заинтересован в том, чтобы поболтать с Python и машинным обучением / автоматическим вводом данных. Однако по мере того, как мое исследование продвигалось, я понимаю, что существует так много разных техник, каждый из которых имеет свои сильные стороны.

Я решил, что смогу продвинуться дальше, если научусь в противоположном направлении. То есть выбрать проблему / задачу и учиться, решая / выполняя ее.

Иногда мне приходится обрабатывать накладные по факсу для обработки данных, и я надеюсь создать программу, которая может ввести их для меня после того, как я отсканировал их, а затем отправил в.

Факсы в основном состоят из 2 одинаковых таблиц. Каждый ряд обозначает отдельного работника. В первом столбце указано имя рабочего (выбор 6). Во втором столбце указан адрес, а остальные столбцы представляют собой флажки, обозначающие различные задания. В верхней части страницы также указан идентификатор счета-фактуры.

Я надеюсь, что кто-то вкратце объяснит, как они поступят по этому поводу. Если бы они использовали SVM для распознавания текста или другой метод? и то, как вы могли бы заставить программу понимать галочку в 5-м блоке, означает «очищено = да», а число в верхнем левом поле - это идентификатор. Я провел небольшое исследование, но не могу понять, с чего начать. Как можно изолировать части факса, например, Верхняя таблица и ее ячейки с остальной части страницы, когда вы не можете гарантировать абсолютное размещение / размер из-за факса / сканов. Или я должен получить сотни факсов + напечатанные данные этих факсов, затем сравнить их, а затем заставить их медленно узнавать, что разница между факсами a и b - это галочка, а идентификационный номер обычно здесь ...

Любой совет приветствуется!

Ответы на вопрос(1)

Ваш ответ на вопрос