Resultados da pesquisa a pedido "nltk"

3 a resposta

Como obter os recursos mais informativos do classificador scikit-learn para diferentes classes?

O pacote NLTK fornece um métodoshow_most_informative_features() para encontrar os recursos mais importantes para as duas classes, com resultados como: contains(outstanding) = True pos : neg = 11.1 : 1.0 contains(seagal) = True neg : pos = 7.7 : ...

2 a resposta

Instalando dados nltk no script setup.py

Eu uso o NLTK com o wordnet no meu projeto. Eu fiz a instalação manualmente no meu PC, com pip:pip3 install nltk --user em um terminal, entãonltk.download() em um shell python para baixar o wordnet. Quero agrupá-los com um arquivo setup.py, mas ...

2 a resposta

Obter sinônimos de synset retorna erro - Python

Estou tentando obter sinônimos de uma determinada palavra usando o Wordnet. O problema é que, apesar de estar fazendo o mesmo, está escrito aqui:aqui [https://stackoverflow.com/questions/19348973/all-synonyms-for-word-in-python], retorna ...

1 a resposta

Nltk stanford pos tagger error: comando Java falhou

Estou tentando usarnltk.tag.stanford module [http://www.nltk.org/api/nltk.tag.html#module-nltk.tag.stanford]para marcar uma frase (primeiro como o exemplo do wiki), mas continuo recebendo o seguinte erro: Traceback (most recent call last): File ...

1 a resposta

Seleção de recursos e preparação de dados para entidade nomeada usando SVM

Tenho alguns dados de comentários de usuários nos quais desejo encontrar o nome de marcas eletrônicas de consumo. Por exemplo, considere estes exemplos de frases ne_chinked que falam sobre "PS4", "nokia 720 lumia", "apple ipad", "sony bravia": ...

2 a resposta

erro python nltk.sent_tokenize o codec ascii não pode decodificar

Consegui ler o texto com sucesso em uma variável, mas ao tentar tokenizar os textos, estou recebendo esse erro estranho: sentences=nltk.sent_tokenize(sample) UnicodeDecodeError: 'ascii' codec can't decode byte 0xe2 in position 11: ordinal not in ...

1 a resposta

Como analisar sentenças com base em conteúdo lexical (frases) com Python-NLTK

O Python-NLTK pode reconhecer a sequência de entrada e analisá-la não apenas com base no espaço em branco, mas também no conteúdo? Digamos, "sistema de computador" se tornou uma frase nessa situação. Alguém pode fornecer um código de ...

1 a resposta

Tokenizer RegEx para dividir um texto em palavras, dígitos e sinais de pontuação

O que eu quero fazer é dividir um texto em seus elementos finais. Por exemplo: from nltk.tokenize import * txt = "A sample sentences with digits like 2.119,99 or 2,99 are awesome." regexp_tokenize(txt, ...

1 a resposta

Calculando tf-idf entre documentos usando python 2.7

Tenho um cenário em que recuperei informações / dados brutos da Internet e os coloquei em seus respectivos arquivos json ou .txt. A partir daí, eu gostaria de calcular as frequências de cada termo em cada documento e sua similaridade de cosseno ...

1 a resposta

Simplificando o conjunto de tags POS franceses com o NLTK

Como simplificar a parte das tags de fala retornadas pelo tagger de POS da Stanford em francês? É bastante fácil ler uma frase em inglês no NLTK, encontrar a parte do discurso de cada palavra e usar map_tag () para simplificar o conjunto de ...