Especificando a classe da coluna em html_table (rvest)
Estou usando o html_table do rvest para ler uma tabela de concordância de duas colunas no site abaixo. Ambas as colunas contêm instâncias de zeros à esquerda que eu gostaria de preservar. Como tal, eu gostaria que as colunas fossem de caráter de classe. Eu uso o seguinte código:
library(rvest)
library(data.table)
df <- list()
for (j in 1:25) {
url <- paste('http://unstats.un.org/unsd/cr/registry/regso.asp?Ci=70&Lg=1&Co=&T=0&p=',
j, '&prn=yes', sep='')
webpage <- read_html(url)
table <- html_nodes(webpage, 'table')
df[[j]] <- html_table(table, header=TRUE)[[1]]
df[[j]] <- df[[j]][,c(1:2) ]
}
ISIC4.NACE2 <- rbindlist(df)
No entanto, um str (df [[1]]) retorna
'data.frame': 40 obs. of 2 variables:
$ ISIC Rev.4: chr "01" "011" "0111" "0112" ...
$ NACE Rev.2: num 1 1.1 1.11 1.12 1.13 1.14 1.15 1.16 1.19 1.2 ...
Parece que a função html_table interpreta a primeira coluna como caractere e a segunda coluna como numérica, truncando os zeros à esquerda na última. Existe uma maneira de especificar a classe da coluna usando html_table?