formato de datos de entrenamiento para nltk punkt

Question

Jan 16, 2014, 12:19 PM

formato de datos de entrenamiento para nltk punkt

Me gustaría ejecutar nltk punkt para dividir oraciones. No hay un modelo de entrenamiento, así que entreno por separado, pero no estoy seguro si el formato de datos de entrenamiento que estoy usando es correcto.

Mis datos de entrenamiento son una oración por línea. No pude encontrar ninguna documentación sobre esto, solo este hilo (https://groups.google.com/forum/#!topic/nltk-users/bxIEnmgeCSM) arroja algo de luz sobre el formato de datos de entrenamiento.

¿Cuál es el formato de datos de entrenamiento correcto para el tokenizador de oraciones punkt nltk?