Resultados da pesquisa a pedido "nltk"
Como obter os recursos mais informativos do classificador scikit-learn para diferentes classes?
O pacote NLTK fornece um métodoshow_most_informative_features() para encontrar os recursos mais importantes para as duas classes, com resultados como: contains(outstanding) = True pos : neg = 11.1 : 1.0 contains(seagal) = True neg : pos = 7.7 : ...
Instalando dados nltk no script setup.py
Eu uso o NLTK com o wordnet no meu projeto. Eu fiz a instalação manualmente no meu PC, com pip:pip3 install nltk --user em um terminal, entãonltk.download() em um shell python para baixar o wordnet. Quero agrupá-los com um arquivo setup.py, mas ...
Obter sinônimos de synset retorna erro - Python
Estou tentando obter sinônimos de uma determinada palavra usando o Wordnet. O problema é que, apesar de estar fazendo o mesmo, está escrito aqui:aqui [https://stackoverflow.com/questions/19348973/all-synonyms-for-word-in-python], retorna ...
Nltk stanford pos tagger error: comando Java falhou
Estou tentando usarnltk.tag.stanford module [http://www.nltk.org/api/nltk.tag.html#module-nltk.tag.stanford]para marcar uma frase (primeiro como o exemplo do wiki), mas continuo recebendo o seguinte erro: Traceback (most recent call last): File ...
Seleção de recursos e preparação de dados para entidade nomeada usando SVM
Tenho alguns dados de comentários de usuários nos quais desejo encontrar o nome de marcas eletrônicas de consumo. Por exemplo, considere estes exemplos de frases ne_chinked que falam sobre "PS4", "nokia 720 lumia", "apple ipad", "sony bravia": ...
erro python nltk.sent_tokenize o codec ascii não pode decodificar
Consegui ler o texto com sucesso em uma variável, mas ao tentar tokenizar os textos, estou recebendo esse erro estranho: sentences=nltk.sent_tokenize(sample) UnicodeDecodeError: 'ascii' codec can't decode byte 0xe2 in position 11: ordinal not in ...
Como analisar sentenças com base em conteúdo lexical (frases) com Python-NLTK
O Python-NLTK pode reconhecer a sequência de entrada e analisá-la não apenas com base no espaço em branco, mas também no conteúdo? Digamos, "sistema de computador" se tornou uma frase nessa situação. Alguém pode fornecer um código de ...
Tokenizer RegEx para dividir um texto em palavras, dígitos e sinais de pontuação
O que eu quero fazer é dividir um texto em seus elementos finais. Por exemplo: from nltk.tokenize import * txt = "A sample sentences with digits like 2.119,99 or 2,99 are awesome." regexp_tokenize(txt, ...
Calculando tf-idf entre documentos usando python 2.7
Tenho um cenário em que recuperei informações / dados brutos da Internet e os coloquei em seus respectivos arquivos json ou .txt. A partir daí, eu gostaria de calcular as frequências de cada termo em cada documento e sua similaridade de cosseno ...
Simplificando o conjunto de tags POS franceses com o NLTK
Como simplificar a parte das tags de fala retornadas pelo tagger de POS da Stanford em francês? É bastante fácil ler uma frase em inglês no NLTK, encontrar a parte do discurso de cada palavra e usar map_tag () para simplificar o conjunto de ...