Usando r para navegar e raspar uma página da web com formulários suspensos em html
Estou tentando raspar dados dehttp://www.footballoutsiders.com/stats/snapcounts, mas não posso alterar os campos nas caixas suspensas do site ("equipe", "semana", "posição" e "ano"). Minha tentativa de raspar a tabela associada a team = "ALL", week = "1", pos = "All" e year = "2015" com rvest está abaixo.
url <- "http://www.footballoutsiders.com/stats/snapcounts"
pgsession <- html_session(url)
pgform <-html_form(pgsession)[[3]]
filled_form <-set_values(pgform,
"team" = "ALL",
"week" = "1",
"pos" = "ALL",
"year" = "2015"
)
submit_form(session=pgsession,form=filled_form, POST=url)
y <- read_html("http://www.footballoutsiders.com/stats/snapcounts")
y <- y %>%
html_nodes("table") %>%
.[[2]] %>%
html_table(header=TRUE)
Este código retorna a tabela associada às variáveis padrão na caixa suspensa team = "ALL", week = "20", pos = "QB" e year = "2015", que é um quadro de dados que contém apenas 11 observações. Se ele tivesse realmente alterado os campos, retornaria um quadro de dados com 1.695 observações.