raspar tabela HTML com várias páginas usando R
Estou tentando criar um quadro de dados raspando a partir da web. Mas há várias páginas que compõem a tabela que estou tentando raspar. mesmo link, mas a página é diferente.
para a primeira página, é assim que eu rasparia:
library(XML)
CB.13<- "http://www.nfl.com/stats/categorystats?tabSeq=1&season=2013&seasonType=REG&experience=&Submit=Go&archive=false&conference=null&d-447263-p=1&statisticPositionCategory=DEFENSIVE_BACK&qualified=true"
CB.13<- readHTMLTable(CB.13, header=FALSE)
cornerback.function<- function(CB.13){
first<- "1"
last<- "1"
for (i in 1:length(CB.13)){
lastrow<- nrow(CB.13[[i]])
lastcol<- ncol(CB.13[[i]])
if(as.numeric(CB.13[[i]] [1,1]) ==first & as.numeric(CB.13[[i]] [lastrow, lastcol]) ==last) {
tab <- i
}
}
}
cornerback.function(CB.13)
cornerbacks.2013<- CB.13[[tab]]
cb.names<- c("Rk", "name", "Team", "Pos", "Comb", "Total", "Ast", "Sck", "SFTY", "PDef", "Int", "TDs", "Yds", "Lng", "FF", "Rec", "TD")
names(cornerbacks.2013)<- cb.names
Eu preciso fazer isso por vários anos, todos com várias páginas - existe uma maneira mais rápida de obter todas as páginas dos dados em vez de fazer isso para cada página individual da tabela e mesclá-las? o próximo link seriahttp://www.nfl.com/stats/categorystats?tabSeq=1&season=2013&seasonType=REG&Submit=Go&experience=&archive=false&conference=null&d-447263-p=2&statisticPositionCategory=DEFENSIVE_BACK&qualified=true
e há 8 páginas para este ano - talvez um loop for loop pelas páginas?