Ler texto como codificação UTF-8
Suponha que eu escreva uma função que analise um fluxo de entrada contendo alemão. Abaixo de um exemplo de brinquedo. O seguinte funciona na minha máquina (porque UTF8 é padrão):
readLines(textConnection("Zürich"))
readLines(textConnection("Z\u00FCrich")) #same thing
No entanto, quero ter certeza de que funciona também quandoUTF-8
não é a codificação de localidade atual. Por exemplo, dentro do rApache, o padrão éascii
. Por isso, passo o parâmetro de codificação:
readLines(textConnection("Zürich", encoding="UTF-8"))
readLines(textConnection("Z\u00FCrich", encoding="UTF-8"))
Mas isso realmente resulta na saída ficar confusa. Por que é isso? Como devo ligartextConnection
para garantir que o fluxo seja lido corretamente em qualquer plataforma ou localidade?