R - Использование rvest для очистки защищенного паролем сайта без входа в систему при каждой итерации цикла
Я пытаюсь собрать данные с защищенного паролем сайта в R с помощью пакета rvest. Мой код в настоящее время входит на сайт на каждой итерации цикла, который будет выполняться около 15 000 раз. Это кажется очень неэффективным, но я не нашел способ обойти это, потому что переход на другой URL без первого входа в систему каждый раз возвращает на страницу входа на сайт. Упрощение моего кода заключается в следующем:
library(rvest)
url <- password protected website url within quotes
session <-html_session(url)
form <-html_form(session)[[1]]
filled_form <- set_values(form,
`username` = email within quotes,
`password` = password within quotes)
start_table <- submit_form(session, filled_form) %>%
jump_to(url from which to scrape first table within quotes) %>%
html_node("table.inlayTable") %>%
html_table()
data_table <- start_table
for(i in 1:nrow(data_ids))
{
current_table <- try(submit_form(session, filled_form) %>%
jump_to(paste(first part of url within quotes, data_ids[i, ], last part of url within quotes, sep="")) %>%
html_node("table.inlayTable") %>%
html_table())
data_table <- rbind(data_table, current_table)
}
Для простоты способ обработки любых возможных ошибок, возникающих в функции try, подавлен. Обратите внимание, что data_ids - это фрейм данных, содержащий часть URL, которая будет обновляться на каждой новой итерации.
Есть ли у кого-нибудь предложение о том, как этот скрепинг может быть достигнут без входа в систему на каждой итерации цикла?
Спасибо! Yann