Removendo o texto que não está em inglês do Corpus in R usando tm ()

Question

Aug 09, 2013, 08:41 PM

Removendo o texto que não está em inglês do Corpus in R usando tm ()

estou usandotm() ewordcloud() para alguma mineração de dados básica em R, mas estou encontrando dificuldades porque há caracteres não ingleses no meu conjunto de dados (embora eu tenha tentado filtrar outros idiomas com base em variáveis de segundo plano).

Digamos que algumas linhas do meu arquivo TXT (salvas como UTF-8 no TextWrangler) sejam assim:

Special
satisfação
Happy
Sad
Potential für

Então eu leio meu arquivo txt em R:

words <- Corpus(DirSource("~/temp", encoding = "UTF-8"),readerControl = list(language = "lat"))

Isso produz a mensagem de aviso:

Warning message:
In readLines(y, encoding = x$Encoding) :
  incomplete final line found on '/temp/file.txt'

Mas como é um aviso, não um erro, continuo a avançar.

words <- tm_map(words, stripWhitespace)
words <- tm_map(words, tolower)

Isso, então, produz o erro:

Error in FUN(X[[1L]], ...) : invalid input 'satisfa��o' in 'utf8towcs'

Estou aberto a encontrar maneiras de filtrar os caracteres não ingleses em TextWrangler ou R; seja qual for o mais expediente. Obrigado pela ajuda!

questionAnswers(2)

Perguntas populares

0 a resposta

Como enviar um email de uma conta do Gmail para outra usando um arquivo ou script em lote?

0 a resposta

ariáveis @Class: acesso público somente leitura, mas acesso privado leitura / gravação

0 a resposta

corrigir a orientação na página para paisagem apenas no Jquery-mobile

0 a resposta

erro input () - NameError: o nome '…' não está definido

0 a resposta

Não consigo obter imagens em tela em html5, o que fazer?

Você é muito ativo! É ótimo!

Removendo o texto que não está em inglês do Corpus in R usando tm ()

questionAnswers(2)

yourAnswerToTheQuestion

Perguntas populares