FUN-ошибка после запуска 'tolower' во время создания твиттера wordcloud
Пытаюсь создать wordcloud из данных твиттера, но получаю следующую ошибку:
Error in FUN(X[[72L]], ...) :
invalid input '������������❤������������ "@xxx:bla, bla, bla... http://t.co/56Fb78aTSC"' in 'utf8towcs'
Эта ошибка появляется после выполнения кода «mytwittersearch_corpus <- tm_map (mytwittersearch_corpus, tolower)»
mytwittersearch_list <-sapply(mytwittersearch, function(x) x$getText())
mytwittersearch_corpus <-Corpus(VectorSource(mytwittersearch_corpus_list))
mytwittersearch_corpus<-tm_map(mytwittersearch_corpus, tolower)
mytwittersearch_corpus<-tm_map( mytwittersearch_corpus, removePunctuation)
mytwittersearch_corpus <-tm_map(mytwittersearch_corpus, function(x) removeWords(x, stopwords()))
Я читал на других страницах, что это может быть связано с тем, что R испытывает трудности с обработкой символов, смайликов и букв на неанглийских языках, но, похоже, это не проблема с «сообщениями об ошибках», с которыми у R возникают проблемы. Я запустил коды:
mytwittersearch_corpus <- tm_map(mytwittersearch_corpus, function(x) iconv(enc2utf8(x), sub = "byte"))
mytwittersearch_corpus<- tm_map(mytwittersearch_corpus, content_transformer(function(x) iconv(enc2utf8(x), sub = "bytes")))
Это не помогает. Я также понимаю, что он не может найти функциюcontent_transformer
хотяtm-package
проверен и работает.
Я запускаю это на OS X 10.6.8 и использую последнюю версию RStudio.