Снимает некоторые проблемы для языка девнагари.
тал, что ответом на мой заголовок часто является чтение документации, но я пробежал поНЛТК книга но это не дает ответа. Я немного новичок в питоне.
У меня есть куча.txt
файлы, и я хочу иметь возможность использовать функции корпуса, которые NLTK предоставляет для корпусаnltk_data
.
я пробовалPlaintextCorpusReader
но я не мог пройти дальше чем:
>>>import nltk
>>>from nltk.corpus import PlaintextCorpusReader
>>>corpus_root = './'
>>>newcorpus = PlaintextCorpusReader(corpus_root, '.*')
>>>newcorpus.words()
Как мне сегментироватьnewcorpus
предложения, использующие пункт? Я пытался использовать функции punkt, но функции punkt не могли прочитатьPlaintextCorpusReader
класс?
Можете ли вы привести меня к тому, как я могу записать сегментированные данные в текстовые файлы?
Редактировать: Этот вопрос был щедрым, а теперь второй. См текст в поле щедрости.