Результаты поиска по запросу "nltk"

1 ответ

Большое спасибо alvas. Это помогает.

емые участники сообщества! Во время предварительной обработки данных, после разделения raw_data на токены, я использовал популярный WordNet Lemmatizer для генерации основ. Я выполняю эксперименты с набором данных, который имеет 18953 ...

1 ответ

Спасибо, это именно то, что я хочу. :-)

то я хочу сделать, это разделить текст на его конечные элементы. Например: from nltk.tokenize import * txt = "A sample sentences with digits like 2.119,99 or 2,99 are awesome." regexp_tokenize(txt, ...

3 ответа

 примеры практических решений.

аю сИнструментарий естественного языка [http://www.nltk.org/](NLTK). Его документация (Книга [http://www.nltk.org/book]а такжеКАК [http://nltk.googlecode.com/svn/trunk/doc/howto/index.html]) довольно громоздки и примеры иногда немного ...

ТОП публикаций

1 ответ

Следующее отображение охватывает максимально возможное количество баз, оно также явно определяет POS-теги без совпадений в WordNet:

пометил некоторые слова с помощью nltk.pos_tag (), поэтому им даны теги treebank. Я хотел бы лемматизировать эти слова, используя известные POS-теги, но я не уверен, как. Я смотрел на лемматизатор Wordnet, но я не уверен, как преобразовать ...

1 ответ

извлечение отношений из текста

Я хочу извлечь отношения из неструктурированного текста в виде (SUBJECT, OBJECT, ACTION) отношений, например, «Мальчик сидит на столе и ест курицу» дал бы мне, (Мальчик, курица, есть) (Мальчик, стол, МЕСТОПОЛОЖЕНИЕ) и т.д.. хотя программа ...

2 ответа

Dime si te fue de util;)

юсь со стоп-словом НЛТК. Вот мой кусочек кода. Может кто-нибудь сказать мне, что не так? from nltk.corpus import stopwords def removeStopwords( palabras ): return [ word for word in palabras if word not in stopwords.words('spanish') ] palabras ...

8 ответов

Вы можете использовать эту функцию, вы должны заметить, что вам нужно опустить все слова

образом, у меня есть набор данных, который я хотел бы удалить стоп-слова из использования stopwords.words('english')Я изо всех сил пытаюсь использовать это в своем коде, чтобы просто вынуть эти слова. У меня уже есть список слов из этого ...

4 ответа

Это выведет:

ужно взять входной текстовый файл с одним словом. Затем мне нужно найти lemma_names, определение и примеры синтаксиса слова, используя wordnet. Я пролистал книгу: «Обработка текста на Python с помощью NLTK 2.0 Cookbook», а также «Обработка ...

1 ответ

Спасибо, у меня есть два вопроса, что если я хочу использовать «биграммы», а не «каждыйграммы» для обучения и тестирования? и что, если я хочу вычислить недоумение для всех предложений? Должен ли я получить среднее из недоразумений?

тируюperplexity мера для языковой модели для текста: train_sentences = nltk.sent_tokenize(train_text) test_sentences = nltk.sent_tokenize(test_text) train_tokenized_text = [list(map(str.lower, nltk.tokenize.word_tokenize(sent))) for sent in ...

3 ответа

Пользователь должен сначала:

5 ПитонаНЛТК книга [http://nltk.googlecode.com/svn/trunk/doc/book/ch05.html] дает этот пример пометки слов в предложении: >>> text = nltk.word_tokenize("And now for something completely different") >>> nltk.pos_tag(text) [('And', 'CC'), ('now', ...