Verwenden von r zum Navigieren und Scrappen einer Webseite mit Dropdown-HTML-Formularen
Ich versuche, Daten von @ zu kratzhttp: //www.footballoutsiders.com/stats/snapcount, aber ich kann die Felder in den Dropdown-Feldern auf der Site ("Team", "Woche", "Position" und "Jahr") nicht ändern. Mein Versuch, die mit team = "ALL", week = "1", pos = "All" und year = "2015" verknüpfte Tabelle mit rvest zu kratzen, ist unten.
url <- "http://www.footballoutsiders.com/stats/snapcounts"
pgsession <- html_session(url)
pgform <-html_form(pgsession)[[3]]
filled_form <-set_values(pgform,
"team" = "ALL",
"week" = "1",
"pos" = "ALL",
"year" = "2015"
)
submit_form(session=pgsession,form=filled_form, POST=url)
y <- read_html("http://www.footballoutsiders.com/stats/snapcounts")
y <- y %>%
html_nodes("table") %>%
.[[2]] %>%
html_table(header=TRUE)
Dieser Code gibt die Tabelle zurück, die den Standardvariablen in der Dropdown-Box zugeordnet ist: team = "ALL", week = "20", pos = "QB" und year = "2015". Dies ist ein Datenrahmen, der nur 11 Beobachtungen enthält . Wenn es tatsächlich die Felder geändert hätte, hätte es einen Datenrahmen mit 1.695 Beobachtungen zurückgegeben.