@Roland поделился.
учаю байты символов UTF-8 как байты символов Latin-1. Примеры содержат
Latin 1 character bytes ----- UTF-8 bytes
äännök ----- äännök
Ã<U+0084>Ã<U+0084>NÃ<U+0096>S ----- äänös
и информация о моей сессии
> sessionInfo()
R version 3.3.2 (2016-10-31)
Platform: x86_64-apple-darwin13.4.0 (64-bit)
Running under: macOS Sierra 10.12.1
locale:
[1] C/UTF-8/C/C/C/C
attached base packages:
[1] stats graphics grDevices utils datasets methods base
Итак, какие настройки мне нужны в R для правильной обработки умлаутов (чтобы не возвращать байты UTF-8 в виде байтов символов Latin-1)?
Связанные с?
Преврати Unicode в Umlaut в R на Mac (данные Facebook)
https://stackoverflow.com/a/22945233/164148
По-видимомуэтот, Мне необходимо
Если вы позвонитеSys.setlocale с"LC_CTYPE" или "LC_ALL" Чтобы изменить язык системы во время работы RStudio, вы можете столкнуться с некоторыми незначительными проблемами, поскольку RStudio предполагает, что кодировка системы не меняется. Если вы используете Windows, мы рекомендуем вам звонить толькоSys.setlocale в .Rprofile, Если вы используете Mac или Linux и хотите изменить языковой стандарт системы, посетите форум поддержки и сообщите нам свой сценарий.
Существует ли какой-то простой инструмент для преобразования байтов символов Latin-1 в байты символов UTF-8?Постскриптум Я проверил это сейчас в R на Linux и R на OSX. У меня та же проблема интерпретации символьных байтов UTF-8, что и символьных байтов Latin-1.