Resultados da pesquisa a pedido "tf-idf"

3 a resposta

Semelhança cosseno de vetores de comprimentos diferentes?

Estou tentando usar o TF-IDF [https://stackoverflow.com/questions/3113428/classifying-documents-into-categories/3114191#3114191] para classificar documentos em categorias. Eu calculei o tf_idf para alguns documentos, mas agora, quando tento ...

1 a resposta

Como usar o classificador spark Naive Bayes para classificação de texto com IDF?

Quero converter documentos de texto em vetores de recurso usando tf-idf e treinar um algoritmo ingênuo de bayes para classificá-los. Posso carregar facilmente meus arquivos de texto sem os rótulos e usar HashingTF () para convertê-lo em um vetor ...

1 a resposta

Como obter detalhes das palavras do TF Vector RDD no Spark ML Lib?

Eu criei Term Frequency usandoHashingTF no Spark. Eu tenho o termo frequências usandotf.transform para cada palavra. Mas os resultados estão sendo mostrados neste formato. [<hashIndexofHashBucketofWord1>,<hashIndexofHashBucketofWord2> ...

1 a resposta

A pontuação do Elasticsearch desativa o IDF

Estou usando o ES para pesquisar uma enorme lista de nomes humanos usando técnicas de pesquisa difusa. O TF é aplicável à pontuação, mas o IDF realmente não é necessário para mim neste caso. Isso está realmente diluindo a pontuação. Eu ainda ...

7 a resposta

Como calculo a semelhança de cosseno de dois vetores?

Como encontro a semelhança de cosseno entre vetores? Preciso encontrar a semelhança para medir a relação entre duas linhas de texto. Por exemplo, eu tenho duas frases como: sistema para interface com o usuário máquina de interface do ...

2 a resposta

Python e algoritmo tfidf, tornam mais rápido?

Estou implementando o tf-idf [http://en.wikipedia.org/wiki/Tf%E2%80%93idf] lgoritmo @ em um aplicativo Web usando Python, no entanto, é extremamente lento. O que eu basicamente faço é: 1) Crie 2 dicionários: Primeiro dicionário: chave (ID do ...