So optimieren Sie das Scraping mit getURL () in R

Ich versuche, alle Rechnungen von zwei Seiten auf der Website der französischen Unterparlamentarischen Kammer abzukratzen. Die Seiten decken den Zeitraum 2002-2012 ab und enthalten jeweils weniger als 1.000 Rechnungen.

Dafür kratz ich mitgetURL durch diese Schleife:

<code>b <- "http://www.assemblee-nationale.fr" # base
l <- c("12","13") # legislature id

lapply(l, FUN = function(x) {
  print(data <- paste(b, x, "documents/index-dossier.asp", sep = "/"))

  # scrape
  data <- getURL(data); data <- readLines(tc <- textConnection(data)); close(tc)
  data <- unlist(str_extract_all(data, "dossiers/[[:alnum:]_-]+.asp"))
  data <- paste(b, x, data, sep = "/")
  data <- getURL(data)
  write.table(data,file=n <- paste("raw_an",x,".txt",sep="")); str(n)
})
</code>

Gibt es eine Möglichkeit, das zu optimieren?getURL() hier funktionieren? Ich kann anscheinend nicht gleichzeitig herunterladen, indem ich dieasync=TRUE Option, die mir jedes Mal den gleichen Fehler gibt:

<code>Error in function (type, msg, asError = TRUE)  : 
Failed to connect to 0.0.0.12: No route to host
</code>

Irgendwelche Ideen? Vielen Dank!

Antworten auf die Frage(2)

Ihre Antwort auf die Frage