Buscando un pequeño consejo de Python Machine Learning

Estoy interesado en jugar con Python y el aprendizaje automático / ingreso automático de datos. Sin embargo, a medida que avanza mi investigación, me doy cuenta de que hay muchas técnicas diferentes, cada una con sus propias fortalezas.

He decidido que podría llegar más lejos si aprendo en la dirección opuesta. Es decir. escoge un problema / tarea y aprende resolviéndolo / completándolo.

Ocasionalmente tengo que procesar facturas enviadas por fax, espero hacer un programa que pueda ingresarlas una vez que las haya escaneado.

Los faxes consisten básicamente en 2 tablas idénticas. Cada fila denota un trabajador separado. La primera columna es para el nombre de un trabajador (una opción de 6). La segunda es una dirección, luego el resto de las columnas son casillas de verificación que denotan diferentes trabajos. También hay un ID de factura en un cuadro en la parte superior de la página.

Espero que alguien explique brevemente cómo harían esto. ¿Si usarían SVM para el reconocimiento de texto u otra técnica? y cómo podría hacer que un programa entienda una marca en el quinto cuadro, significa 'limpiado = sí' y que el número en el cuadro superior izquierdo es la ID. He investigado un poco, pero no puedo entender cómo empezar. ¿Cómo es posible aislar partes de un fax, p. La tabla superior y sus celdas del resto de la página cuando no puede garantizar la ubicación / tamaño absoluto debido al fax / escaneos. ¿O tengo que obtener cientos de faxes + los datos mecanografiados de estos faxes y luego compararlos y luego conseguir que aprenda lentamente que la diferencia entre el fax ayb es una marca aquí, y el número de identificación generalmente está aquí ...

Cualquier consejo bienvenido!

Respuestas a la pregunta(1)

Su respuesta a la pregunta