format danych treningowych dla nltk punkt

Question

Jan 16, 2014, 12:19 PM

format danych treningowych dla nltk punkt

Chciałbym uruchomić nltk punkt, aby podzielić zdania. Nie ma modelu treningowego, więc trenuję model osobno, ale nie jestem pewien, czy format danych treningowych, którego używam, jest poprawny.

Moje dane treningowe to jedno zdanie na linię. Nie udało mi się znaleźć żadnej dokumentacji na ten temat, tylko ten wątek (https://groups.google.com/forum/#!topic/nltk-users/bxIEnmgeCSM) rzuca trochę światła na format danych treningowych.

Jaki jest prawidłowy format danych treningowych dla tokenizera zdania nltk punkt?