So optimieren Sie das Scraping mit getURL () in R
Ich versuche, alle Rechnungen von zwei Seiten auf der Website der französischen Unterparlamentarischen Kammer abzukratzen. Die Seiten decken den Zeitraum 2002-2012 ab und enthalten jeweils weniger als 1.000 Rechnungen.
Dafür kratz ich mitgetURL
durch diese Schleife:
<code>b <- "http://www.assemblee-nationale.fr" # base l <- c("12","13") # legislature id lapply(l, FUN = function(x) { print(data <- paste(b, x, "documents/index-dossier.asp", sep = "/")) # scrape data <- getURL(data); data <- readLines(tc <- textConnection(data)); close(tc) data <- unlist(str_extract_all(data, "dossiers/[[:alnum:]_-]+.asp")) data <- paste(b, x, data, sep = "/") data <- getURL(data) write.table(data,file=n <- paste("raw_an",x,".txt",sep="")); str(n) }) </code>
Gibt es eine Möglichkeit, das zu optimieren?getURL()
hier funktionieren? Ich kann anscheinend nicht gleichzeitig herunterladen, indem ich dieasync=TRUE
Option, die mir jedes Mal den gleichen Fehler gibt:
<code>Error in function (type, msg, asError = TRUE) : Failed to connect to 0.0.0.12: No route to host </code>
Irgendwelche Ideen? Vielen Dank!