Erro FUN após executar 'tolower' ao criar o Twitter wordcloud
Tentando criar o wordcloud a partir dos dados do twitter, mas obtenha o seguinte erro:
Error in FUN(X[[72L]], ...) :
invalid input '������������❤������������ "@xxx:bla, bla, bla... http://t.co/56Fb78aTSC"' in 'utf8towcs'
Este erro aparece após a execução do código "mytwittersearch_corpus <- tm_map (mytwittersearch_corpus, tolower)"
mytwittersearch_list <-sapply(mytwittersearch, function(x) x$getText())
mytwittersearch_corpus <-Corpus(VectorSource(mytwittersearch_corpus_list))
mytwittersearch_corpus<-tm_map(mytwittersearch_corpus, tolower)
mytwittersearch_corpus<-tm_map( mytwittersearch_corpus, removePunctuation)
mytwittersearch_corpus <-tm_map(mytwittersearch_corpus, function(x) removeWords(x, stopwords()))
Li em outras páginas que isso pode ser devido ao fato de R ter dificuldade em processar símbolos, emoticons e letras em idiomas não ingleses, mas isso parece não ser o problema dos "tweets de erro" com os quais R tem problemas. Eu executei os códigos:
mytwittersearch_corpus <- tm_map(mytwittersearch_corpus, function(x) iconv(enc2utf8(x), sub = "byte"))
mytwittersearch_corpus<- tm_map(mytwittersearch_corpus, content_transformer(function(x) iconv(enc2utf8(x), sub = "bytes")))
Isso não ajuda. Eu também entendo que ele não consegue encontrar funçãocontent_transformer
mesmo que atm-package
está marcado e em execução.
Estou executando isso no OS X 10.6.8 e usando o mais recente RStudio.