So optimieren Sie das Scraping mit getURL () in R

Question

Apr 09, 2012, 04:41 AM

So optimieren Sie das Scraping mit getURL () in R

Ich versuche, alle Rechnungen von zwei Seiten auf der Website der französischen Unterparlamentarischen Kammer abzukratzen. Die Seiten decken den Zeitraum 2002-2012 ab und enthalten jeweils weniger als 1.000 Rechnungen.

Dafür kratz ich mitgetURL durch diese Schleife:

<code>b <- "http://www.assemblee-nationale.fr" # base
l <- c("12","13") # legislature id

lapply(l, FUN = function(x) {
  print(data <- paste(b, x, "documents/index-dossier.asp", sep = "/"))

  # scrape
  data <- getURL(data); data <- readLines(tc <- textConnection(data)); close(tc)
  data <- unlist(str_extract_all(data, "dossiers/[[:alnum:]_-]+.asp"))
  data <- paste(b, x, data, sep = "/")
  data <- getURL(data)
  write.table(data,file=n <- paste("raw_an",x,".txt",sep="")); str(n)
})
</code>

Gibt es eine Möglichkeit, das zu optimieren?getURL() hier funktionieren? Ich kann anscheinend nicht gleichzeitig herunterladen, indem ich dieasync=TRUE Option, die mir jedes Mal den gleichen Fehler gibt:

<code>Error in function (type, msg, asError = TRUE)  : 
Failed to connect to 0.0.0.12: No route to host
</code>

Irgendwelche Ideen? Vielen Dank!

Antworten auf die Frage(2)

Top Fragen

0 die antwort

Wie implementiere ich "__iadd __ ()" für einen unveränderlichen Typ?

0 die antwort

Wie man mit mongodb-java-driver auf Vordermann kommt

0 die antwort

Was ist der Unterschied zwischen selection.style und selection.attr in D3.js?

0 die antwort

Warum wurden in C99 keine neuen (bitbreitenspezifischen) printf () -Formatoptionszeichenfolgen übernommen?

0 die antwort

Codeigniter: Der Dateityp, den Sie hochladen möchten, ist nicht zulässig. Gestern war es gut

Du bist sehr aktiv! Es ist großartig!

So optimieren Sie das Scraping mit getURL () in R

Antworten auf die Frage(2)

Ihre Antwort auf die Frage

Top Fragen