Снимает некоторые проблемы для языка девнагари.

тал, что ответом на мой заголовок часто является чтение документации, но я пробежал поНЛТК книга но это не дает ответа. Я немного новичок в питоне.

У меня есть куча.txt файлы, и я хочу иметь возможность использовать функции корпуса, которые NLTK предоставляет для корпусаnltk_data.

я пробовалPlaintextCorpusReader но я не мог пройти дальше чем:

>>>import nltk
>>>from nltk.corpus import PlaintextCorpusReader
>>>corpus_root = './'
>>>newcorpus = PlaintextCorpusReader(corpus_root, '.*')
>>>newcorpus.words()

Как мне сегментироватьnewcorpus предложения, использующие пункт? Я пытался использовать функции punkt, но функции punkt не могли прочитатьPlaintextCorpusReader класс?

Можете ли вы привести меня к тому, как я могу записать сегментированные данные в текстовые файлы?

Редактировать: Этот вопрос был щедрым, а теперь второй. См текст в поле щедрости.

Ответы на вопрос(3)

Ваш ответ на вопрос