Resultados da pesquisa a pedido "tm"
Big Text Corpus quebra tm_map
Eu estive quebrando minha cabeça por causa disso nos últimos dias. Pesquisei todos os arquivos SO e tentei as soluções sugeridas, mas não consigo fazer isso funcionar. Eu tenho conjuntos de documentos txt em pastas como 2000 06, 1995 -99, etc., e ...
Como selecionar apenas um subconjunto de termos de corpus para a criação de TermDocumentMatrix no tm
Eu tenho um corpus enorme e estou interessado apenas na aparência de um punhado de termos que conheço desde o início. Existe uma maneira de criar um termo matriz de documentos a partir do corpus usando otm pacote, onde apenas os termos que eu ...
Erro FUN após executar 'tolower' ao criar o Twitter wordcloud
Tentando criar o wordcloud a partir dos dados do twitter, mas obtenha o seguinte erro: Error in FUN(X[[72L]], ...) : invalid input '������������❤������������ "@xxx:bla, bla, bla... http://t.co/56Fb78aTSC"' in 'utf8towcs'Este erro aparece após a ...
Pacote R e tm: criar uma matriz termo-documento com um dicionário de uma ou duas palavras?
Objetivo:Eu quero criar ummatriz termo-documento usando umdicionário que possui palavras compostas oubigrams, como alguns dospalavras-chave. Pesquisa na internet:Sendo novo na mineração de texto e notm pacote emR, Fui à Web para descobrir como ...
matriz de termos de documentos grandes - erro ao contar o número de caracteres dos documentos
Eu construí uma grande matriz de termos de documentos com o pacoteRTextTools. Agora, estou tentando contar o número de caracteres nas linhas da matriz para poder remover documentos vazios antes de executar a modelagem de tópicos. Meu código não ...
Como o removeSparseTerms no R funciona?
Estou usando o método removeSparseTerms no R e exigia a entrada de um valor limite. Também li que quanto maior o valor, maior será o número de termos retidos na matriz retornada. Como esse método funciona e qual é a lógica por trás dele? Entendo ...
Como determinar qual versão mais antiga do pacote R é compatível com a minha versão R
Estou tentando instalar o pacote "tm", mas recebo um erro dizendo que "tm" não está disponível para minha versão R package ‘tm’ is not available (for R version 3.0.2)Mas então vi que alguém sugeriu que eu baixasse a versão arquivada ...
mineração de texto com o pacote tm em R, remova as palavras que começam com [http] ou qualquer outra palavra específica
Eu sou novo em R e mineração de texto. Eu criara uma nuvem de palavras a partir do feed do twitter relacionada a algum termo. O problema que estou enfrentando é que, no wordcloud, ele mostra http: ... ou htt ... Como lido com esse ...
Como manter os marcadores de início e fim de frase com quanteda
Estou tentando criar 3 gramas usando R'squanteda pacote. Estou lutando para encontrar uma maneira de manter os marcadores de começo e fim de frase em n gramas, o<s> e</s> como no código abaixo. Eu pensei que usando okeptFeatures com uma ...
tm: leia no quadro de dados, mantenha os IDs de texto, construa o DTM e junte-se a outro conjunto de dados
Estou usando o pacote tm. Diz que tenho um quadro de dados de 2 colunas e 500 linhas. A primeira coluna é uma ID gerada aleatoriamente e possui caracteres e números: "txF87uyK" A segunda coluna é o texto real: "O clima de hoje está bom. John ...