Результаты поиска по запросу "nltk"
Большое спасибо alvas. Это помогает.
емые участники сообщества! Во время предварительной обработки данных, после разделения raw_data на токены, я использовал популярный WordNet Lemmatizer для генерации основ. Я выполняю эксперименты с набором данных, который имеет 18953 ...
Спасибо, это именно то, что я хочу. :-)
то я хочу сделать, это разделить текст на его конечные элементы. Например: from nltk.tokenize import * txt = "A sample sentences with digits like 2.119,99 or 2,99 are awesome." regexp_tokenize(txt, ...
примеры практических решений.
аю сИнструментарий естественного языка [http://www.nltk.org/](NLTK). Его документация (Книга [http://www.nltk.org/book]а такжеКАК [http://nltk.googlecode.com/svn/trunk/doc/howto/index.html]) довольно громоздки и примеры иногда немного ...
Следующее отображение охватывает максимально возможное количество баз, оно также явно определяет POS-теги без совпадений в WordNet:
пометил некоторые слова с помощью nltk.pos_tag (), поэтому им даны теги treebank. Я хотел бы лемматизировать эти слова, используя известные POS-теги, но я не уверен, как. Я смотрел на лемматизатор Wordnet, но я не уверен, как преобразовать ...
извлечение отношений из текста
Я хочу извлечь отношения из неструктурированного текста в виде (SUBJECT, OBJECT, ACTION) отношений, например, «Мальчик сидит на столе и ест курицу» дал бы мне, (Мальчик, курица, есть) (Мальчик, стол, МЕСТОПОЛОЖЕНИЕ) и т.д.. хотя программа ...
Dime si te fue de util;)
юсь со стоп-словом НЛТК. Вот мой кусочек кода. Может кто-нибудь сказать мне, что не так? from nltk.corpus import stopwords def removeStopwords( palabras ): return [ word for word in palabras if word not in stopwords.words('spanish') ] palabras ...
Вы можете использовать эту функцию, вы должны заметить, что вам нужно опустить все слова
образом, у меня есть набор данных, который я хотел бы удалить стоп-слова из использования stopwords.words('english')Я изо всех сил пытаюсь использовать это в своем коде, чтобы просто вынуть эти слова. У меня уже есть список слов из этого ...
Это выведет:
ужно взять входной текстовый файл с одним словом. Затем мне нужно найти lemma_names, определение и примеры синтаксиса слова, используя wordnet. Я пролистал книгу: «Обработка текста на Python с помощью NLTK 2.0 Cookbook», а также «Обработка ...
Спасибо, у меня есть два вопроса, что если я хочу использовать «биграммы», а не «каждыйграммы» для обучения и тестирования? и что, если я хочу вычислить недоумение для всех предложений? Должен ли я получить среднее из недоразумений?
тируюperplexity мера для языковой модели для текста: train_sentences = nltk.sent_tokenize(train_text) test_sentences = nltk.sent_tokenize(test_text) train_tokenized_text = [list(map(str.lower, nltk.tokenize.word_tokenize(sent))) for sent in ...
Пользователь должен сначала:
5 ПитонаНЛТК книга [http://nltk.googlecode.com/svn/trunk/doc/book/ch05.html] дает этот пример пометки слов в предложении: >>> text = nltk.word_tokenize("And now for something completely different") >>> nltk.pos_tag(text) [('And', 'CC'), ('now', ...