Если у вас все еще есть проблемы, он будет полагаться на что-то другое, однако, чтобы изменить локаль в Windows, вы должны использовать имена, отличные от Linux или OS X (см., Например, вашу собственную информацию о локали). В Windows "голландский", вероятно, достаточно.

-x32, R-2.13.0

Уважаемый список,

У меня есть проблема, которая (я думаю) связана с взаимодействием между Windows и R.

Я пытаюсь почистить таблицу с данными по Гавайским островам. Это мой код R:

library(XML)
u <- "http://en.wikipedia.org/wiki/Hawaii"
tables <- readHTMLTable(u)
Islands <- tables[[5]]

Вывод (первый набор столбцов):

      Island            Nickname                                                                  > > Islands
      Island            Nickname                                                                  > > Location 1    Hawaiʻi[7]      The Big

Остров 19 ° 34 € N 155 ° 30 € WI ¿/ ï ¿19,567 ° N 155,5 ° W »¿/ 19,567; -155,5 2 Мауи [8] The Valley Isle 20 ° 48 € N 156 ° 20 € WI »¿/ ï» ¿20,8 ° N 156,333 ° Wï »¿/ 20,8; -156.333 3 Кахо »Олаве [9] Целевой остров 20 ° 33 € N 156 ° 36 ° W ï / ï» ¿20,55 ° N 156,6 ° Wï »¿/ 20,55; -156,6 4 LÄnaÊ »i [10] The Pineapple Isle 20 ° 50 € N 156 ° 56 € W» ¿/ ï »¿20,833 ° N 156,933 ° Wï» ¿/ 20,833; -156,933 5 MolokaÊ »i [11] The Friendly Isle 21 ° 08 € N 157 ° 02… WI» ¿/ ï »¿21.133 ° N 157.033 ° W» ¿/ 21.133; -157.033 6 OÊ »ahu [12] Место сбора 21 ° 28 € N 157 ° 59 € Wï ¿/ ï ¿21,467 ° N 157,983 ° W W» 21 / 21,467; -157,983 7 КауаÊ »i [13] The Garden Isle 22 ° 05 € N 159 ° 30 €« ï / ï »¿22,083 ° N 159,5 ° W» ¿/ 22,083; -159,5 8 NiÊ »ihau [14] Запретный остров
21 ° 54 ° N 160 ° 10 ° W «¿/ ï» ¿21,9 ° N 160,167 ° W »¿/ 21,9; -160,167

Как видите, там есть «странные» персонажи. Я также пыталсяreadHTMLTable(u, encoding = "UTF-16") а такжеreadHTMLTable(u, encoding = "UTF-8") но это не помогло

Мне кажется, что может быть проблема с взаимодействием настроек Windows набора символов и R.

sessionInfo() дает

> sessionInfo()
R version 2.13.0 (2011-04-13)
Platform: i386-pc-mingw32/i386 (32-bit)

locale:
[1] LC_COLLATE=Dutch_Netherlands.1252  LC_CTYPE=Dutch_Netherlands.1252    LC_MONETARY=Dutch_Netherlands.1252
[4] LC_NUMERIC=C                       LC_TIME=Dutch_Netherlands.1252  

attached base packages:
[1] stats     graphics  grDevices utils     datasets  methods   base    

other attached packages:
[1] XML_3.2-0.2

Я также попытался позволить R использовать другую настройку, введя:Sys.setlocale("LC_ALL", "en_US.UTF-8"), но это дает ответ:

> Sys.setlocale("LC_ALL", "en_US.UTF-8")
[1] ""
Warning message:
In Sys.setlocale("LC_ALL", "en_US.UTF-8") :
  OS reports request to set locale to "en_US.UTF-8" cannot be honored

Кроме того, я попытался внести изменения непосредственно из командной строки Windows, используя:chcp 65001 и вариации этого, но это ничего не изменило.

Из поиска в Интернете я заметил, что у других тоже есть проблема, но не удалось найти решение. Похоже, это вопрос взаимодействия Windows и R. К сожалению, все три компьютера в моем распоряжении имеют эту проблему. Это происходит как под WinXP-x32, так и под Win7-x86.

Есть ли способ заставить R переопределить настройки Windows или проблему можно решить иначе? Я также пробовал другие веб-сайты, и проблема возникает каждый раз, когда в тексте, который нужно выковывать, есть é, ü, ä, î и так далее.

Спасибо роджер

Ответы на вопрос(2)

Ваш ответ на вопрос