O RStudio não selecionou a codificação que estou dizendo para usar ao ler um arquivo

Question

Apr 27, 2014, 04:55 PM

O RStudio não selecionou a codificação que estou dizendo para usar ao ler um arquivo

Estou tentando lero seguinte arquivo codificado em UTF-8 em R, mas sempre que eu o leio, os caracteres unicode não são codificados corretamente:

O script que estou usando para processar o arquivo é o seguinte:

defaultEncoding <- "UTF8"
detalheVotacaoMunicipioZonaTypes <- c("character", "character", "factor", "factor", "factor", "factor", "factor",
                                                     "factor", "factor", "factor", "factor", "factor", "numeric", 
                                                     "numeric", "numeric", "numeric", "numeric", "numeric",
                                                     "numeric", "numeric", "numeric", "numeric", "numeric", 
                                                     "numeric", "character", "character")

readDetalheVotacaoMunicipioZona <- function( fileName ) {
  fileConnection = file(fileName,encoding=defaultEncoding)
  contents <- readChar(fileConnection, file.info(fileName)$size)  
  close(fileConnection)
  contents <- gsub('"', "", contents)

  columnNames <- c("data_geracao", "hora_geracao", "ano_eleicao", "num_turno", "descricao_eleicao", "sigla_uf", "sigla_ue",
                   "codigo_municipio", "nome_municipio", "numero_zona", "codigo_cargo", "descricao_cargo", "qtd_aptos", 
                   "qtd_secoes", "qtd_secoes_agregadas", "qtd_aptos_tot", "qtd_secoes_tot", "qtd_comparecimento",
                   "qtd_abstencoes", "qtd_votos_nominais", "qtd_votos_brancos", "qtd_votos_nulos", "qtd_votos_legenda", 
                   "qtd_votos_anulados", "data_ult_totalizacao", "hora_ult_totalizacao")

  read.csv(text=contents, 
           colClasses=detalheVotacaoMunicipioZonaTypes,
           sep=";", 
           col.names=columnNames, 
           fileEncoding=defaultEncoding,
           header=FALSE)
}

Eu li o arquivo enviado na codificação UTF-8, removi todas as aspas (números pares são citados, por isso preciso limpá-las) e, em seguida, alimente o conteúdo pararead.csv. Ele lê e processa o arquivo corretamente, mas parece que não está usando as informações de codificação que estou fornecendo.

O que devo fazer para usar o UTF-8 para ler este arquivo?

Estou usando o RStudio no OSX se isso fizer alguma diferença.