Как читать данные CSV с неизвестной кодировкой в R
у меня есть.csv
данные, и я мог просматривать их с веб-страницы, но когда я прочитал их вR
некоторые данные не моглибыть показанным Данные доступны здесьhome.ustc.edu.cn/~lanrr/data.csv
mydata = read.csv("http://home.ustc.edu.cn/~lanrr/data.csv", header = T)
View(mydata) # show something like this:
# 9:39:37 665 600160 ���ɷ� ���� ���� 8.050 100 805.00 ��ȯ �ɽ�
��ȯ���� E004017669 665
2 9:39:38 697 930 �������� ���� ���� 4.360 283 1233.88
���� �ɽ� ����Ʒ���� 680001369 697
Данные содержат некоторые китайские слова, но я неt Если мне нужно изменить кодировку или сделать что-то еще, кто-нибудь сталкивался с этой проблемой раньше?
mydata = read.csv("http://home.ustc.edu.cn/~lanrr/data.csv",
encoding = "UTF-8", header = T, stringsAsFactors = F)
View(mydata)
# 9:39:37 665 600160
8.050 100 805.00
E004017669 665
2 9:39:38 697 930
4.360 283 1233.88
680001369 697
sessionInfo()
# R version 2.15.2 (2012-10-26)
Platform: x86_64-redhat-linux-gnu (64-bit)
locale:
[1] LC_CTYPE=en_US.UTF-8 LC_NUMERIC=C LC_TIME=en_US.UTF-8
LC_COLLATE=en_US.UTF-8
[5] LC_MONETARY=en_US.UTF-8 LC_MESSAGES=en_US.UTF-8 LC_PAPER=C
LC_NAME=C
[9] LC_ADDRESS=C LC_TELEPHONE=C LC_MEASUREMENT=en_US.UTF-8
LC_IDENTIFICATION=C
attached base packages:
[1] compiler stats graphics grDevices utils datasets methods base
other attached packages:
[1] data.table_1.8.8 TTR_0.22-0 xts_0.9-3 zoo_1.7-9
timeDate_2160.97 Matrix_1.0-9 lattice_0.20-10
loaded via a namespace (and not attached):
[1] grid_2.15.2 tools_2.15.2
Я делаю это таким образом, наконец:
Sys.setlocale("LC_COLLATE", "Chinese")
Sys.setlocale("LC_CTYPE", "Chinese")
Sys.setlocale("LC_MONETARY", "Chinese")
Sys.setlocale("LC_TIME", "Chinese")
Sys.setlocale("LC_MESSAGES", "Chinese")
Sys.setlocale("LC_MEASUREMENT", "Chinese")