формат обучающих данных для nltk punkt

Я хотел бы запустить nltk punkt, чтобы разделить предложения. Модели тренировок нет, поэтому я тренирую модель отдельно, но я не уверен, что формат данных обучения, который я использую, правильный.

Мои тренировочные данные - одно предложение на строку. Я не смог найти никакой документации об этом, только эту ветку (https://groups.google.com/forum/#!topic/nltk-users/bxIEnmgeCSM) проливает свет на формат данных обучения.

Каков правильный формат обучающих данных для токенайзера предложений nltk punkt?

Ответы на вопрос(1)

Ваш ответ на вопрос