Como otimizar o scraping com getURL () em R

Question

Apr 09, 2012, 04:41 AM

Como otimizar o scraping com getURL () em R

Eu estou tentando raspar todas as contas de duas páginas no site da câmara baixa do parlamento francês. As páginas cobrem 2002-2012 e representam menos de 1.000 contas cada.

Para isso, eu raspo comgetURL através deste loop:

<code>b <- "http://www.assemblee-nationale.fr" # base
l <- c("12","13") # legislature id

lapply(l, FUN = function(x) {
  print(data <- paste(b, x, "documents/index-dossier.asp", sep = "/"))

  # scrape
  data <- getURL(data); data <- readLines(tc <- textConnection(data)); close(tc)
  data <- unlist(str_extract_all(data, "dossiers/[[:alnum:]_-]+.asp"))
  data <- paste(b, x, data, sep = "/")
  data <- getURL(data)
  write.table(data,file=n <- paste("raw_an",x,".txt",sep="")); str(n)
})
</code>

Existe alguma maneira de otimizar ogetURL() funcionar aqui? Eu não consigo usar o download simultâneo passando oasync=TRUE opção, que me dá o mesmo erro toda vez:

<code>Error in function (type, msg, asError = TRUE)  : 
Failed to connect to 0.0.0.12: No route to host
</code>

Alguma ideia? Obrigado!

questionAnswers(2)

Perguntas populares

0 a resposta

Procedimento ou função tem muitos argumentos especificados

0 a resposta

O que é MonadBaseControl para?

0 a resposta

Como Servlet 3.1 difere para Servlet 3.0

0 a resposta

Filas do Max AWS SQS

0 a resposta

Alterar Entrada para Maiúsculas

Você é muito ativo! É ótimo!

Como otimizar o scraping com getURL () em R

questionAnswers(2)

yourAnswerToTheQuestion

Perguntas populares