Trainingsdatenformat für nltk punkt
Ich möchte nltk punkt ausführen, um Sätze zu teilen. Da es kein Trainingsmodell gibt, trainiere ich das Modell separat, bin mir jedoch nicht sicher, ob das von mir verwendete Trainingsdatenformat korrekt ist.
Meine Trainingsdaten sind ein Satz pro Zeile. Ich konnte keine Dokumentation dazu finden, nur diesen Thread (https://groups.google.com/forum/#!topic/nltk-users/bxIEnmgeCSM) gibt Aufschluss über das Trainingsdatenformat.
Was ist das richtige Trainingsdatenformat für den nltk punkt sentence tokenizer?