Resultados da pesquisa a pedido "tf-idf"

3 a resposta

como normalizo uma pontuação solr / lucene?

Estou tentando descobrir como melhorar a pontuação dos resultados de pesquisa do solr. Meu aplicativo precisa obter a pontuação dos resultados do solr e exibir um número de "estrelas", dependendo de quão bons são os resultados para a consulta. 5 ...

2 a resposta

O que significa uma incorporação de palavra ponderada?

Nopapel [http://www.aclweb.org/anthology/S17-2100]que estou tentando implementar, diz, Neste trabalho, os tweets foram modelados usando três tipos de representação de texto. O primeiro é um modelo de saco de palavras ponderado por ...

2 a resposta

quadro de dados do tfidf com python

Eu tenho que classificar alguns sentimentos meu quadro de dados é assim Phrase Sentiment is it good movie positive wooow is it very goode positive bad movie negativeEu fiz algum pré-processamento como tokenização parar palavras decorrentes etc ...

1 a resposta

Obter o nome do documento na matriz scikit-learn tf-idf

Eu criei uma matriz tf-idf, mas agora quero recuperar as 2 principais palavras para cada documento. Quero passar a identificação do documento e ele deve me dar as 2 principais palavras. No momento, tenho esses dados de exemplo: from ...

0 a resposta

Como a frequência do termo é calculada no TfidfVectorizer?

Eu procurei muito para entender isso, mas não sou capaz. Entendo que, por padrão, o TfidfVectorizer se aplicarál2 normalização no termo ...

3 a resposta

Posso usar o CountVectorizer no scikit-learn para contar a frequência de documentos que não foram usados para extrair os tokens?

Eu tenho trabalhado com oCountVectorizer aula no scikit-learn. Entendo que, se usado da maneira mostrada abaixo, a saída final consistirá em uma matriz contendo contagens de recursos ou tokens. Esses tokens são extraídos de um conjunto de ...

2 a resposta

Python: MemoryError ao calcular a similaridade de cosseno tf-idf entre duas colunas no Pandas

Estou tentando calcular a semelhança de cosseno de vetor tf-idf entre duas colunas em um dataframe do Pandas. Uma coluna contém uma consulta de pesquisa, a outra contém um título de produto. O valor da similaridade do cosseno deve ser um ...

3 a resposta

Semelhança cosseno de vetores de comprimentos diferentes?

Estou tentando usar o TF-IDF [https://stackoverflow.com/questions/3113428/classifying-documents-into-categories/3114191#3114191] para classificar documentos em categorias. Eu calculei o tf_idf para alguns documentos, mas agora, quando tento ...

5 a resposta

Implementação simples de similaridade N-Gram, tf-idf e Cosine em Python

Preciso comparar os documentos armazenados em um banco de dados e obter uma pontuação de similaridade entre 0 e 1. O método que preciso usar tem que ser muito simples. Implementando uma versão baunilha de n-gramas (onde é possível definir ...

2 a resposta

TypeError: deve ser str, não listar

o problema é que o resultado da saída não é salvo no arquivo csv. Estou usando este código para ponderar as palavras positivo e negativo.Eu quero salvar no arquivo csv.Primeiramente, leia o arquivo csv, aplique o tf-idf e a exibição de saída no ...