uf der Suche nach einem kleinen Python-Ratschlag zum maschinellen Lern

Ich bin daran interessiert, mich mit Python und maschinellem Lernen / automatischer Dateneingabe vertraut zu machen. Im Laufe meiner Forschungen wurde mir jedoch klar, dass es so viele verschiedene Techniken gibt, die jeweils ihre eigenen Stärken haben.

Ich habe beschlossen, dass ich vielleicht weiter komme, wenn ich in die entgegengesetzte Richtung lerne. Das heißt Wähle ein Problem / eine Aufgabe und lerne, indem du sie löst / erledigst.

Ich muss gelegentlich Rechnungen, die gefaxt wurden, mit Daten verarbeiten. Ich hoffe, dass ich ein Programm erstellen kann, das diese für mich eingibt, sobald ich sie gescannt habe.

Die Faxe bestehen grundsätzlich aus 2 identischen Tabellen. Jede Reihe kennzeichnet einen einzelnen Arbeiter. Die erste Spalte ist für einen Arbeiternamen (eine Auswahl von 6). Die zweite Spalte ist eine Adresse. Die restlichen Spalten sind Ankreuzfelder, die verschiedene Jobs kennzeichnen. Es gibt auch eine Rechnungs-ID in einem Feld oben auf der Seite.

Ich hoffe, dass jemand kurz erklärt, wie er das machen würde. Würden sie SVM für die Texterkennung oder eine andere Technik verwenden? und wie man ein Programm dazu bringen könnte, ein Häkchen im fünften Kästchen zu verstehen, bedeutet 'gereinigt = ja' und dass die Zahl im oberen linken Kästchen die ID ist. Ich habe ein bisschen recherchiert, kann aber nicht verstehen, wie ich anfangen soll. Wie ist es möglich, Teile eines Faxes zu isolieren, z. Die oberste Tabelle und ihre Zellen vom Rest der Seite, wenn Sie aufgrund der Fax- / Scanvorgänge keine absolute Platzierung / Größe garantieren können. Oder muss ich Hunderte von Faxen + die eingegebenen Daten dieser Faxe abrufen, sie vergleichen und dann langsam feststellen, dass der Unterschied zwischen Fax a und b ein Häkchen ist, und die ID-Nummer ist normalerweise hier ...

Jeder Rat ist willkommen!

Antworten auf die Frage(2)

Ihre Antwort auf die Frage