Css problema de selección con rvest y NHL estadísticas
Quiero extraer datos de hockey-reference.com, específicamente desde este enlace:
https: //www.hockey-reference.com/leagues/NHL_1991.htm
Quiero la cuarta tabla, llamada "Estadísticas del equipo", y también quiero restar la primera y la última fila (pero eso puede ser para otro momento).
nicialmente, quiero que el raspado funcione con el enlace de 1991, pero finalmente quiero raspar todos los enlaces de 1991 a 2017.
library(tidyverse)
library(rvest)
stat_urls <- "https://www.hockey-reference.com/leagues/NHL_1991.html"
Ahora mismo, solo tengo el enlace de 1991, por simplicidad. Parece que no puedo encontrar la selección correcta de CSS, a pesar de que he intentado múltiples diferentes, después de una búsqueda exhaustiva utilizando la fuente "inspeccionar" de la página web real. He intentado las siguientes selecciones de CSS:
table#stats.sortable.stats_table.now.sortable
#stats
#all_stats
#all_stats > div.table_outer_container
#stats
#stats > tbody
#div_stats (and all sorts of combos with this one)
Ninguno de estos trabajos, cuando se usa en el siguiente código:
team_stats <- stat_urls %>%
read_html() %>%
html_nodes("#stats") %>%
html_table(header = T)
Todos los intentos con "xpath =" también fallaron. Cualquier ayuda con esto sería absolutamente fenomenal, ¡y Go Preds!