Сбор (rvest) нескольких HTML-страниц из списка URL
У меня есть датафрейм, который выглядит так:
country <- c("Canada", "US", "Japan", "China")
url <- c("http://en.wikipedia.org/wiki/United_States", "http://en.wikipedia.org/wiki/Canada",
"http://en.wikipedia.org/wiki/Japan", "http://en.wikipedia.org/wiki/China")
df <- data.frame(country, url)
country link
1 Canada http://en.wikipedia.org/wiki/United_States
2 US http://en.wikipedia.org/wiki/Canada
3 Japan http://en.wikipedia.org/wiki/Japan
4 China http://en.wikipedia.org/wiki/China
С помощьюrvest
Я хотел бы поцарапатьоглавление для каждого URL и привязать их к одному выходу.
Этот код извлекает оглавление для одного URL:
library(rvest)
toc <- html(url) %>%
html_nodes(".toctext") %>%
html_text()
Желаемый результат:
country toc
US Etymology
History
Native American and European contact
Settlements
...
Canada Etymology
History
Aboriginal peoples
European colonization
...etc