Resultados da pesquisa a pedido "text-mining"
Como limpo os dados do twitter no R?
Extraí tweets do twitter usando o pacote twitteR e os salvei em um arquivo de texto. Eu realizei o seguinte no corpus xx<-tm_map(xx,removeNumbers, lazy=TRUE, 'mc.cores=1') xx<-tm_map(xx,stripWhitespace, lazy=TRUE, ...
Extração de NGram eficiente em CPU e memória com R
Eu escrevi um algoritmo que extrai NGrams (bigramas, trigramas, ... até 5 gramas) de uma lista de 50000 endereços. Meu objetivo é ter para cada endereço um vetor booleano representando se os NGrams estão presentes ou não no endereço. Portanto, ...
Vetorização de ngram de palavras muito rápida em R
edit: O novo pacote text2vec é excelente e resolve esse problema (e muitos outros) muito bem. text2vec no CRAN [https://cran.r-project.org/web/packages/text2vec/index.html] text2vec no github [https://github.com/dselivanov/text2vec] vinheta que ...
todas as conclusões possíveis de forma de palavra do radical de uma palavra (biomédica)
Estou familiarizado com a derivação de palavras e a conclusão do pacote tm em R. Estou tentando criar um método rápido e sujo para encontrar todas as variantes de uma determinada palavra (dentro de um corpus). Por exemplo, eu gostaria de obter ...
mineração de texto com o pacote tm em R, remova as palavras que começam com [http] ou qualquer outra palavra específica
Eu sou novo em R e mineração de texto. Eu criara uma nuvem de palavras a partir do feed do twitter relacionada a algum termo. O problema que estou enfrentando é que, no wordcloud, ele mostra http: ... ou htt ... Como lido com esse ...
"RTextTools" create_matrix obteve um erro
Eu estava executando o pacote RTextTools para criar um modelo de classificação de texto. E quando preparo o conjunto de dados de previsão e tentei transformá-lo em matriz. Eu recebi o erro como: Error in if (attr(weighting, "Acronym") == ...
Como encontrar a palavra mais próxima de um vetor usando word2vec
Acabei de começar a usar o Word2vec e fiquei imaginando como podemos encontrar a palavra mais próxima de um vetor. Eu tenho esse vetor que é o vetor médio para um conjunto de vetores: array([-0.00449447, -0.00310097, 0.02421786, ...], ...
Como manter os marcadores de início e fim de frase com quanteda
Estou tentando criar 3 gramas usando R'squanteda pacote. Estou lutando para encontrar uma maneira de manter os marcadores de começo e fim de frase em n gramas, o<s> e</s> como no código abaixo. Eu pensei que usando okeptFeatures com uma ...
Erro de memória em python usando matriz numpy
Estou recebendo o seguinte erro para este código: model = lda.LDA(n_topics=15, n_iter=50, random_state=1) model.fit(X) topic_word = model.topic_word_ print("type(topic_word): {}".format(type(topic_word))) print("shape: ...
Agrupando texto no MATLAB
Quero fazer agrupamentos aglomerativos hierárquicos em textos no MATLAB. Diga, eu tenho quatro frases, I have a pen. I have a paper. I have a pencil. I have a cat.Quero agrupar as quatro frases acima para ver quais são mais semelhantes. Eu sei ...