R - Mit rvest eine kennwortgeschützte Website durchsuchen, ohne sich bei jeder Schleifeniteration anzumelden

Ich versuche, mit dem Paket rvest Daten von einer kennwortgeschützten Website in R zu entfernen. Mein Code meldet sich derzeit bei jeder Wiederholung einer Schleife, die ungefähr 15.000 Mal ausgeführt wird, auf der Website an. Dies scheint sehr ineffizient zu sein, aber ich habe keinen Ausweg gefunden, da das Wechseln zu einer anderen URL, ohne sich jedes Mal neu anzumelden, zur Anmeldeseite der Website zurückkehrt. Eine Vereinfachung meines Codes lautet wie folgt:

library(rvest)
url <- password protected website url within quotes
session <-html_session(url)
form <-html_form(session)[[1]]

filled_form <- set_values(form,
                      `username` = email within quotes, 
                      `password` = password within quotes)
start_table <- submit_form(session, filled_form) %>%
  jump_to(url from which to scrape first table within quotes) %>%
  html_node("table.inlayTable") %>%
  html_table()
data_table <- start_table

for(i in 1:nrow(data_ids))
{
current_table <- try(submit_form(session, filled_form) %>%
  jump_to(paste(first part of url within quotes, data_ids[i, ], last part of url within quotes, sep="")) %>%
  html_node("table.inlayTable") %>%
  html_table())

data_table <- rbind(data_table, current_table)
}

Der Einfachheit halber wird die Art und Weise, wie ich mit möglichen Fehlern in der try-Funktion umgehe, unterdrückt. Beachten Sie, dass data_ids ein Datenrahmen ist, der den Teil der URL enthält, der bei jeder neuen Iteration aktualisiert werden soll.

Hat jemand einen Vorschlag, wie dieses Scraping erreicht werden kann, ohne sich bei jeder Wiederholung der Schleife anzumelden?

Vielen Dank! Yann

Antworten auf die Frage(2)

Ihre Antwort auf die Frage