Procurando um pequeno conselho sobre aprendizado de máquina em python

Estou interessado em ter uma brincadeira com Python e aprendizado de máquina / entrada automática de dados. No entanto, à medida que minha pesquisa avança, percebo que existem muitas técnicas diferentes, cada uma com suas próprias forças.

Decidi que poderia ir mais longe se aprender na direção oposta. I.e. escolha um problema / tarefa e aprenda resolvendo / completando.

Ocasionalmente, preciso processar os dados das faturas que são enviadas por fax. Espero criar um programa que possa inseri-las para mim depois de digitalizar.

Os faxes consistem basicamente em 2 tabelas idênticas. Cada linha indica um trabalhador separado. A 1ª coluna é para um nome de trabalhadores (uma opção de 6). 2ª é um endereço; o restante das colunas são caixas de seleção que indicam trabalhos diferentes. Também há um ID da fatura em uma caixa na parte superior da página.

Espero que alguém explique brevemente como eles iriam fazer isso. Se eles usassem SVM para reconhecimento de texto ou outra técnica? e como você poderia fazer um programa entender um tique na 5ª caixa significa 'limpo = sim' e que o número na caixa superior esquerda é o ID. Eu fiz um pouco de pesquisa, mas não consigo entender como começar. Como é possível isolar partes de um fax, por exemplo A tabela superior e suas células do resto da página quando você não pode garantir posicionamento / tamanho absolutos devido aos fax / digitalizações. Ou eu tenho que receber centenas de faxes + os dados digitados desses faxes, compará-los e depois aprender lentamente a diferença entre o fax aeb é um sinal aqui, e o número de identificação geralmente está aqui ...

Qualquer conselho bem-vindo!

questionAnswers(1)

yourAnswerToTheQuestion