Rvest: Raspe varias URL

Question

Apr 28, 2016, 07:53 PM

Rvest: Raspe varias URL

Estoy tratando de raspar algunos datos de IMDB en bucle a través de una lista de URL. Lamentablemente, mi salida no es exactamente lo que esperaba, no importa almacenarlo en un marco de datos.

Obtengo URLs con

library(rvest)
topmovies <- read_html("http://www.imdb.com/chart/top")
links <- top250 %>%
  html_nodes(".titleColumn") %>%
  html_nodes("a") %>%
  html_attr("href")
links_full <- paste("http://imdb.com",links,sep="")
links_full_test <- links_full[1:10]

y luego podría obtener contenido con

lapply(links_full_test, . %>% read_html() %>% html_nodes("h1") %>% html_text())

pero es una lista anidada y no sé cómo incluirla en un marco de datos adecuado en R. De manera similar, si quisiera obtener otro atributo, digamos

%>% read_html() %>% html_nodes("strong span") %>% html_text()

para recuperar la calificación de IMDB, obtengo el mismo resultado de la lista anidada y, lo más importante, tengo que hacer read_html () dos veces ... lo que lleva mucho tiempo. ¿Hay una mejor manera de hacer esto? Supongo que for-loops, pero no puedo hacer que funcione de esa manera :(