Снимает некоторые проблемы для языка девнагари.

Question

Feb 10, 2011, 12:19 AM

Снимает некоторые проблемы для языка девнагари.

тал, что ответом на мой заголовок часто является чтение документации, но я пробежал поНЛТК книга но это не дает ответа. Я немного новичок в питоне.

У меня есть куча.txt файлы, и я хочу иметь возможность использовать функции корпуса, которые NLTK предоставляет для корпусаnltk_data.

я пробовалPlaintextCorpusReader но я не мог пройти дальше чем:

>>>import nltk
>>>from nltk.corpus import PlaintextCorpusReader
>>>corpus_root = './'
>>>newcorpus = PlaintextCorpusReader(corpus_root, '.*')
>>>newcorpus.words()

Как мне сегментироватьnewcorpus предложения, использующие пункт? Я пытался использовать функции punkt, но функции punkt не могли прочитатьPlaintextCorpusReader класс?

Можете ли вы привести меня к тому, как я могу записать сегментированные данные в текстовые файлы?

Редактировать: Этот вопрос был щедрым, а теперь второй. См текст в поле щедрости.

Снимает некоторые проблемы для языка девнагари.

Ответы на вопрос(3)

Ваш ответ на вопрос

Популярные вопросы

Вы очень активны! Это здорово!

Снимает некоторые проблемы для языка девнагари.

Ответы на вопрос(3)

Ваш ответ на вопрос

Популярные вопросы