Читать текст как кодировку UTF-8
Предположим, я пишу функцию, которая анализирует входной поток, содержащий немецкий язык. Ниже игрушечный пример. На моей машине работает следующее (потому что стандарт UTF8):
readLines(textConnection("Zürich"))
readLines(textConnection("Z\u00FCrich")) #same thing
Однако я хочу убедиться, что это работает и когдаUTF-8
не является текущей кодировкой локали. Например, внутри rApache, по умолчаниюascii
, Следовательно, я передаю параметр кодирования:
readLines(textConnection("Zürich", encoding="UTF-8"))
readLines(textConnection("Z\u00FCrich", encoding="UTF-8"))
Но на самом деле это приводит к тому, что вывод искажается. Почему это? Как мне позвонитьtextConnection
убедиться, что поток читается правильно на любой платформе или локали?