Rvest: Raspe varias URL
Estoy tratando de raspar algunos datos de IMDB en bucle a través de una lista de URL. Lamentablemente, mi salida no es exactamente lo que esperaba, no importa almacenarlo en un marco de datos.
Obtengo URLs con
library(rvest)
topmovies <- read_html("http://www.imdb.com/chart/top")
links <- top250 %>%
html_nodes(".titleColumn") %>%
html_nodes("a") %>%
html_attr("href")
links_full <- paste("http://imdb.com",links,sep="")
links_full_test <- links_full[1:10]
y luego podría obtener contenido con
lapply(links_full_test, . %>% read_html() %>% html_nodes("h1") %>% html_text())
pero es una lista anidada y no sé cómo incluirla en un marco de datos adecuado en R. De manera similar, si quisiera obtener otro atributo, digamos
%>% read_html() %>% html_nodes("strong span") %>% html_text()
para recuperar la calificación de IMDB, obtengo el mismo resultado de la lista anidada y, lo más importante, tengo que hacer read_html () dos veces ... lo que lleva mucho tiempo. ¿Hay una mejor manera de hacer esto? Supongo que for-loops, pero no puedo hacer que funcione de esa manera :(