Resultados da pesquisa a pedido "tm"
Como determinar qual versão mais antiga do pacote R é compatível com a minha versão R
Estou tentando instalar o pacote "tm", mas recebo um erro dizendo que "tm" não está disponível para minha versão R package ‘tm’ is not available (for R version 3.0.2)Mas então vi que alguém sugeriu que eu baixasse a versão arquivada ...
Como o removeSparseTerms no R funciona?
Estou usando o método removeSparseTerms no R e exigia a entrada de um valor limite. Também li que quanto maior o valor, maior será o número de termos retidos na matriz retornada. Como esse método funciona e qual é a lógica por trás dele? Entendo ...
matriz de termos de documentos grandes - erro ao contar o número de caracteres dos documentos
Eu construí uma grande matriz de termos de documentos com o pacoteRTextTools. Agora, estou tentando contar o número de caracteres nas linhas da matriz para poder remover documentos vazios antes de executar a modelagem de tópicos. Meu código não ...
Pacote R e tm: criar uma matriz termo-documento com um dicionário de uma ou duas palavras?
Objetivo:Eu quero criar ummatriz termo-documento usando umdicionário que possui palavras compostas oubigrams, como alguns dospalavras-chave. Pesquisa na internet:Sendo novo na mineração de texto e notm pacote emR, Fui à Web para descobrir como ...
Erro FUN após executar 'tolower' ao criar o Twitter wordcloud
Tentando criar o wordcloud a partir dos dados do twitter, mas obtenha o seguinte erro: Error in FUN(X[[72L]], ...) : invalid input '������������❤������������ "@xxx:bla, bla, bla... http://t.co/56Fb78aTSC"' in 'utf8towcs'Este erro aparece após a ...
Como selecionar apenas um subconjunto de termos de corpus para a criação de TermDocumentMatrix no tm
Eu tenho um corpus enorme e estou interessado apenas na aparência de um punhado de termos que conheço desde o início. Existe uma maneira de criar um termo matriz de documentos a partir do corpus usando otm pacote, onde apenas os termos que eu ...
Big Text Corpus quebra tm_map
Eu estive quebrando minha cabeça por causa disso nos últimos dias. Pesquisei todos os arquivos SO e tentei as soluções sugeridas, mas não consigo fazer isso funcionar. Eu tenho conjuntos de documentos txt em pastas como 2000 06, 1995 -99, etc., e ...
Removendo palavras muito comuns (ocorrem em mais de 80% dos documentos) em R
Estou trabalhando com o pacote 'tm' para criar um corpus. Eu fiz a maioria das etapas de pré-processamento. O restante é remover palavras muito comuns (termos que ocorrem em mais de 80% dos documentos). Alguém pode me ajudar com isso? dsc <- ...
tm perde os metadados ao aplicar tm_map
Eu tenho um (pequeno) problema com a biblioteca tm r. diga que eu tenho um corpus: # boilerplate bcorp <- c("one","two","three","four","five") myCorpus <- Corpus(VectorSource(bcorp), list(lanuage = "en_US")) tdm <- TermDocumentMatrix(myCorpus) ...
Procurar programaticamente um símbolo de ticker em R
Eu tenho um campo de dados que contém nomes de empresas, como company <- c("Microsoft", "Apple", "Cloudera", "Ford") > company Company 1 Microsoft 2 Apple 3 Cloudera 4 Forde assim por diante. O pacotetm.plugin.webmining permite consultar dados ...