Resultados da pesquisa a pedido "text-mining"

4 a resposta

Como limpo os dados do twitter no R?

Extraí tweets do twitter usando o pacote twitteR e os salvei em um arquivo de texto. Eu realizei o seguinte no corpus xx<-tm_map(xx,removeNumbers, lazy=TRUE, 'mc.cores=1') xx<-tm_map(xx,stripWhitespace, lazy=TRUE, ...

2 a resposta

Extração de NGram eficiente em CPU e memória com R

Eu escrevi um algoritmo que extrai NGrams (bigramas, trigramas, ... até 5 gramas) de uma lista de 50000 endereços. Meu objetivo é ter para cada endereço um vetor booleano representando se os NGrams estão presentes ou não no endereço. Portanto, ...

2 a resposta

Vetorização de ngram de palavras muito rápida em R

edit: O novo pacote text2vec é excelente e resolve esse problema (e muitos outros) muito bem. text2vec no CRAN [https://cran.r-project.org/web/packages/text2vec/index.html] text2vec no github [https://github.com/dselivanov/text2vec] vinheta que ...

1 a resposta

todas as conclusões possíveis de forma de palavra do radical de uma palavra (biomédica)

Estou familiarizado com a derivação de palavras e a conclusão do pacote tm em R. Estou tentando criar um método rápido e sujo para encontrar todas as variantes de uma determinada palavra (dentro de um corpus). Por exemplo, eu gostaria de obter ...

2 a resposta

mineração de texto com o pacote tm em R, remova as palavras que começam com [http] ou qualquer outra palavra específica

Eu sou novo em R e mineração de texto. Eu criara uma nuvem de palavras a partir do feed do twitter relacionada a algum termo. O problema que estou enfrentando é que, no wordcloud, ele mostra http: ... ou htt ... Como lido com esse ...

1 a resposta

"RTextTools" create_matrix obteve um erro

Eu estava executando o pacote RTextTools para criar um modelo de classificação de texto. E quando preparo o conjunto de dados de previsão e tentei transformá-lo em matriz. Eu recebi o erro como: Error in if (attr(weighting, "Acronym") == ...

1 a resposta

Como encontrar a palavra mais próxima de um vetor usando word2vec

Acabei de começar a usar o Word2vec e fiquei imaginando como podemos encontrar a palavra mais próxima de um vetor. Eu tenho esse vetor que é o vetor médio para um conjunto de vetores: array([-0.00449447, -0.00310097, 0.02421786, ...], ...

2 a resposta

Como manter os marcadores de início e fim de frase com quanteda

Estou tentando criar 3 gramas usando R'squanteda pacote. Estou lutando para encontrar uma maneira de manter os marcadores de começo e fim de frase em n gramas, o<s> e</s> como no código abaixo. Eu pensei que usando okeptFeatures com uma ...

1 a resposta

Erro de memória em python usando matriz numpy

Estou recebendo o seguinte erro para este código: model = lda.LDA(n_topics=15, n_iter=50, random_state=1) model.fit(X) topic_word = model.topic_word_ print("type(topic_word): {}".format(type(topic_word))) print("shape: ...

1 a resposta

Agrupando texto no MATLAB

Quero fazer agrupamentos aglomerativos hierárquicos em textos no MATLAB. Diga, eu tenho quatro frases, I have a pen. I have a paper. I have a pencil. I have a cat.Quero agrupar as quatro frases acima para ver quais são mais semelhantes. Eu sei ...