Если у вас все еще есть проблемы, он будет полагаться на что-то другое, однако, чтобы изменить локаль в Windows, вы должны использовать имена, отличные от Linux или OS X (см., Например, вашу собственную информацию о локали). В Windows "голландский", вероятно, достаточно.
-x32, R-2.13.0
Уважаемый список,
У меня есть проблема, которая (я думаю) связана с взаимодействием между Windows и R.
Я пытаюсь почистить таблицу с данными по Гавайским островам. Это мой код R:
library(XML)
u <- "http://en.wikipedia.org/wiki/Hawaii"
tables <- readHTMLTable(u)
Islands <- tables[[5]]
Вывод (первый набор столбцов):
Island Nickname > > Islands
Island Nickname > > Location 1 Hawaiʻi[7] The Big
Остров 19 ° 34 € N 155 ° 30 € WI ¿/ ï ¿19,567 ° N 155,5 ° W »¿/ 19,567; -155,5 2 Мауи [8] The Valley Isle 20 ° 48 € N 156 ° 20 € WI »¿/ ï» ¿20,8 ° N 156,333 ° Wï »¿/ 20,8; -156.333 3 Кахо »Олаве [9] Целевой остров 20 ° 33 € N 156 ° 36 ° W ï / ï» ¿20,55 ° N 156,6 ° Wï »¿/ 20,55; -156,6 4 LÄnaÊ »i [10] The Pineapple Isle 20 ° 50 € N 156 ° 56 € W» ¿/ ï »¿20,833 ° N 156,933 ° Wï» ¿/ 20,833; -156,933 5 MolokaÊ »i [11] The Friendly Isle 21 ° 08 € N 157 ° 02… WI» ¿/ ï »¿21.133 ° N 157.033 ° W» ¿/ 21.133; -157.033 6 OÊ »ahu [12] Место сбора 21 ° 28 € N 157 ° 59 € Wï ¿/ ï ¿21,467 ° N 157,983 ° W W» 21 / 21,467; -157,983 7 КауаÊ »i [13] The Garden Isle 22 ° 05 € N 159 ° 30 €« ï / ï »¿22,083 ° N 159,5 ° W» ¿/ 22,083; -159,5 8 NiÊ »ihau [14] Запретный остров
21 ° 54 ° N 160 ° 10 ° W «¿/ ï» ¿21,9 ° N 160,167 ° W »¿/ 21,9; -160,167
Как видите, там есть «странные» персонажи. Я также пыталсяreadHTMLTable(u, encoding = "UTF-16")
а такжеreadHTMLTable(u, encoding = "UTF-8")
но это не помогло
Мне кажется, что может быть проблема с взаимодействием настроек Windows набора символов и R.
sessionInfo()
дает
> sessionInfo()
R version 2.13.0 (2011-04-13)
Platform: i386-pc-mingw32/i386 (32-bit)
locale:
[1] LC_COLLATE=Dutch_Netherlands.1252 LC_CTYPE=Dutch_Netherlands.1252 LC_MONETARY=Dutch_Netherlands.1252
[4] LC_NUMERIC=C LC_TIME=Dutch_Netherlands.1252
attached base packages:
[1] stats graphics grDevices utils datasets methods base
other attached packages:
[1] XML_3.2-0.2
Я также попытался позволить R использовать другую настройку, введя:Sys.setlocale("LC_ALL", "en_US.UTF-8")
, но это дает ответ:
> Sys.setlocale("LC_ALL", "en_US.UTF-8")
[1] ""
Warning message:
In Sys.setlocale("LC_ALL", "en_US.UTF-8") :
OS reports request to set locale to "en_US.UTF-8" cannot be honored
Кроме того, я попытался внести изменения непосредственно из командной строки Windows, используя:chcp 65001
и вариации этого, но это ничего не изменило.
Из поиска в Интернете я заметил, что у других тоже есть проблема, но не удалось найти решение. Похоже, это вопрос взаимодействия Windows и R. К сожалению, все три компьютера в моем распоряжении имеют эту проблему. Это происходит как под WinXP-x32, так и под Win7-x86.
Есть ли способ заставить R переопределить настройки Windows или проблему можно решить иначе? Я также пробовал другие веб-сайты, и проблема возникает каждый раз, когда в тексте, который нужно выковывать, есть é, ü, ä, î и так далее.
Спасибо роджер