Resultados da pesquisa a pedido "gensim"
Como você inicializa uma variável de corpus gensim com um csr_matrix?
Eu tenho X como um csr_matrix que eu obtive usando vetorizador tfidf do scikit, ey que é uma matrizMeu plano é criar recursos usando o LDA, no entanto, eu nã...
Como carregar frases no Python gensim?
Estou tentando usar oword2vec [http://radimrehurek.com/gensim/models/word2vec.html]módulo degensim biblioteca de processamento de linguagem natural em Python. Os documentos dizem para inicializar o modelo: from gensim.models import word2vec ...
O que significa sintaxe "palavra por palavra" em Python?
Eu vejo o seguinte snippet de script dopágina de tutorial do gensim [http://radimrehurek.com/gensim/tut1.html]. Qual é a sintaxe depalavra por palavraabaixo do script Python? >> texts = [[word for word in document.lower().split() if word not in ...
Distribuição de tópicos: como vemos qual documento pertence a qual tópico após executar o LDA em python
Sou capaz de executar o código LDA da gensim e obtive os 10 principais tópicos com suas respectivas palavras-chave. Agora eu gostaria de dar um passo adiante para ver o quão preciso é o algo do LDA, vendo qual documento eles agrupam em cada ...
Atualizar o modelo gensim word2vec
Eu tenho um modelo word2vec em gensim treinado sobre 98892 documentos. Para qualquer frase que não esteja presente na matriz de frases (ou seja, o conjunto sobre o qual eu treinei o modelo), preciso atualizar o modelo com essa frase para que a ...
Converter arquivo bin word2vec em texto
Deword2vec [https://code.google.com/p/word2vec/]site, posso baixar o GoogleNews-vectors-negative300.bin.gz. O arquivo .bin (cerca de 3,4 GB) é um formato binário que não é útil para mim. Tomas ...
Como usar o Gensim doc2vec com vetores de palavras pré-treinados?
Recentemente, me deparei com a adição do doc2vec ao Gensim. Como posso usar vetores de palavras pré-treinados (por exemplo, encontrados no site original do word2vec) com o doc2vec? Ou o doc2vec está obtendo os vetores de palavras das mesmas ...
Gensim: TypeError: doc2bow espera uma matriz de tokens unicode na entrada, não uma única string
Estou começando com alguma tarefa python, estou enfrentando um problema ao usar o gensim. Estou tentando carregar arquivos do meu disco e processá-los (divida-os e minúsculos ()) O código que eu tenho está abaixo: dictionary_arr=[] for ...