а затем фильтровать по именам типов файлов
аюсь использоватьrvest
загрузить список файлов изэтот сайт. Имена файлов являются обычными, но URL-адреса для загрузки не соответствуют шаблону (всего десятки цифр), поэтому я не могу составить список URL-адресов для загрузки на основе каких-либо критериев. Как я могу использовать имена ссылок для загрузки актуальных файлов?
Пока что я могу получить список интересующих файлов (на основе селектора CSS), и я могу получить список всех ссылок на сайте, но я не уверен, как их сопоставить. Мне нужно будет проверить сайт на наличие изменений и загрузить любые файлы с измененными именами, поэтому важно использовать имя файла для доступа к файлу. Я не очень знаком с HTML / CSS, поэтому, возможно, поэтому я не могу понять эту, возможно, простую задачу.
library(rvest)
# url with list of download files
url <- "http://www-air.larc.nasa.gov/cgi-bin/ArcView/actamerica.2016?C130=1"
doc <- read_html(url)
# getting everything within the CSS selector "td a"
all <- html_text(html_nodes(doc, "td a"))
# getting list of certain file names
filetype <- "PICARRO"
files <- all[grep(filetype, all)]
# this returns a list of all links on the page,
# but I'm not sure how to match the links up with their names
html_attr(html_nodes(doc, "a"), "href")
Спасибо заранее за любую помощь.