Cómo optimizar el raspado con getURL () en R

Question

Apr 09, 2012, 04:41 AM

Cómo optimizar el raspado con getURL () en R

Estoy intentando eliminar todos los proyectos de ley de dos páginas en el sitio web de la cámara baja francesa del parlamento. Las páginas cubren 2002-2012 y representan menos de 1,000 billetes cada una.

Para esto, raspo congetURL a través de este bucle:

<code>b <- "http://www.assemblee-nationale.fr" # base
l <- c("12","13") # legislature id

lapply(l, FUN = function(x) {
  print(data <- paste(b, x, "documents/index-dossier.asp", sep = "/"))

  # scrape
  data <- getURL(data); data <- readLines(tc <- textConnection(data)); close(tc)
  data <- unlist(str_extract_all(data, "dossiers/[[:alnum:]_-]+.asp"))
  data <- paste(b, x, data, sep = "/")
  data <- getURL(data)
  write.table(data,file=n <- paste("raw_an",x,".txt",sep="")); str(n)
})
</code>

¿Hay alguna manera de optimizar elgetURL() funciona aqui? Parece que no puedo usar la descarga concurrente al pasar elasync=TRUE Opción, que me da el mismo error cada vez:

<code>Error in function (type, msg, asError = TRUE)  : 
Failed to connect to 0.0.0.12: No route to host
</code>

¿Algunas ideas? ¡Gracias!

Respuestas a la pregunta(2)

Preguntas populares

0 la respuesta

Jasper iReport fecha personalizada y hora personalizada

0 la respuesta

¿Qué nombres de método C # no deben ofuscarse?

0 la respuesta

obtener el lr de la persona que llama desde la subrutina a la variable C - armar

0 la respuesta

Delphi 64 bits? [cerrado

0 la respuesta

¿Producto de matriz funcional pura y razonablemente eficiente en Haskell?

¡Eres muy activo! ¡Es genial!

Cómo optimizar el raspado con getURL () en R

Respuestas a la pregunta(2)

Su respuesta a la pregunta

Preguntas populares