O RStudio não selecionou a codificação que estou dizendo para usar ao ler um arquivo
Estou tentando lero seguinte arquivo codificado em UTF-8 em R, mas sempre que eu o leio, os caracteres unicode não são codificados corretamente:
O script que estou usando para processar o arquivo é o seguinte:
defaultEncoding <- "UTF8"
detalheVotacaoMunicipioZonaTypes <- c("character", "character", "factor", "factor", "factor", "factor", "factor",
"factor", "factor", "factor", "factor", "factor", "numeric",
"numeric", "numeric", "numeric", "numeric", "numeric",
"numeric", "numeric", "numeric", "numeric", "numeric",
"numeric", "character", "character")
readDetalheVotacaoMunicipioZona <- function( fileName ) {
fileConnection = file(fileName,encoding=defaultEncoding)
contents <- readChar(fileConnection, file.info(fileName)$size)
close(fileConnection)
contents <- gsub('"', "", contents)
columnNames <- c("data_geracao", "hora_geracao", "ano_eleicao", "num_turno", "descricao_eleicao", "sigla_uf", "sigla_ue",
"codigo_municipio", "nome_municipio", "numero_zona", "codigo_cargo", "descricao_cargo", "qtd_aptos",
"qtd_secoes", "qtd_secoes_agregadas", "qtd_aptos_tot", "qtd_secoes_tot", "qtd_comparecimento",
"qtd_abstencoes", "qtd_votos_nominais", "qtd_votos_brancos", "qtd_votos_nulos", "qtd_votos_legenda",
"qtd_votos_anulados", "data_ult_totalizacao", "hora_ult_totalizacao")
read.csv(text=contents,
colClasses=detalheVotacaoMunicipioZonaTypes,
sep=";",
col.names=columnNames,
fileEncoding=defaultEncoding,
header=FALSE)
}
Eu li o arquivo enviado na codificação UTF-8, removi todas as aspas (números pares são citados, por isso preciso limpá-las) e, em seguida, alimente o conteúdo pararead.csv
. Ele lê e processa o arquivo corretamente, mas parece que não está usando as informações de codificação que estou fornecendo.
O que devo fazer para usar o UTF-8 para ler este arquivo?
Estou usando o RStudio no OSX se isso fizer alguma diferença.