RStudio не выбирает кодировку, которую я советую использовать при чтении файла
Я пытаюсь читатьследующий файл в кодировке UTF-8 в R, но всякий раз, когда я читаю его, символы Юникода не кодируются правильно:
Сценарий, который я использую для обработки файла, выглядит следующим образом:
defaultEncoding <- "UTF8"
detalheVotacaoMunicipioZonaTypes <- c("character", "character", "factor", "factor", "factor", "factor", "factor",
"factor", "factor", "factor", "factor", "factor", "numeric",
"numeric", "numeric", "numeric", "numeric", "numeric",
"numeric", "numeric", "numeric", "numeric", "numeric",
"numeric", "character", "character")
readDetalheVotacaoMunicipioZona <- function( fileName ) {
fileConnection = file(fileName,encoding=defaultEncoding)
contents <- readChar(fileConnection, file.info(fileName)$size)
close(fileConnection)
contents <- gsub('"', "", contents)
columnNames <- c("data_geracao", "hora_geracao", "ano_eleicao", "num_turno", "descricao_eleicao", "sigla_uf", "sigla_ue",
"codigo_municipio", "nome_municipio", "numero_zona", "codigo_cargo", "descricao_cargo", "qtd_aptos",
"qtd_secoes", "qtd_secoes_agregadas", "qtd_aptos_tot", "qtd_secoes_tot", "qtd_comparecimento",
"qtd_abstencoes", "qtd_votos_nominais", "qtd_votos_brancos", "qtd_votos_nulos", "qtd_votos_legenda",
"qtd_votos_anulados", "data_ult_totalizacao", "hora_ult_totalizacao")
read.csv(text=contents,
colClasses=detalheVotacaoMunicipioZonaTypes,
sep=";",
col.names=columnNames,
fileEncoding=defaultEncoding,
header=FALSE)
}
Я читаю отправку файла в кодировке UTF-8, удаляю все кавычки (четные числа указаны, поэтому мне нужно их очистить), а затем передаю содержимоеread.csv
, Он правильно читает и обрабатывает файл, но, похоже, он не использует информацию о кодировке, которую я ему предоставляю.
Что я должен сделать, чтобы заставить это использовать UTF-8, чтобы прочитать этот файл?
Я использую RStudio на OSX, если это имеет какое-либо значение.