Especificar la clase de columna en html_table (rvest)
Estoy usando html_table de rvest para leer una tabla de concordancia de dos columnas del sitio web a continuación. Ambas columnas contienen instancias de ceros a la izquierda que me gustaría conservar. Como tal, me gustaría que las columnas sean de carácter de clase. Yo uso el siguiente código:
library(rvest)
library(data.table)
df <- list()
for (j in 1:25) {
url <- paste('http://unstats.un.org/unsd/cr/registry/regso.asp?Ci=70&Lg=1&Co=&T=0&p=',
j, '&prn=yes', sep='')
webpage <- read_html(url)
table <- html_nodes(webpage, 'table')
df[[j]] <- html_table(table, header=TRUE)[[1]]
df[[j]] <- df[[j]][,c(1:2) ]
}
ISIC4.NACE2 <- rbindlist(df)
Sin embargo, un str (df [[1]]) devuelve
'data.frame': 40 obs. of 2 variables:
$ ISIC Rev.4: chr "01" "011" "0111" "0112" ...
$ NACE Rev.2: num 1 1.1 1.11 1.12 1.13 1.14 1.15 1.16 1.19 1.2 ...
Parece que la función html_table interpreta la primera columna como carácter y la segunda columna como numérica, truncando los ceros iniciales en la última. ¿Hay alguna manera de especificar la clase de columna usando html_table?