а затем фильтровать по именам типов файлов

Question

Oct 10, 2017, 08:15 PM

а затем фильтровать по именам типов файлов

аюсь использоватьrvest загрузить список файлов изэтот сайт. Имена файлов являются обычными, но URL-адреса для загрузки не соответствуют шаблону (всего десятки цифр), поэтому я не могу составить список URL-адресов для загрузки на основе каких-либо критериев. Как я могу использовать имена ссылок для загрузки актуальных файлов?

Пока что я могу получить список интересующих файлов (на основе селектора CSS), и я могу получить список всех ссылок на сайте, но я не уверен, как их сопоставить. Мне нужно будет проверить сайт на наличие изменений и загрузить любые файлы с измененными именами, поэтому важно использовать имя файла для доступа к файлу. Я не очень знаком с HTML / CSS, поэтому, возможно, поэтому я не могу понять эту, возможно, простую задачу.

library(rvest)

# url with list of download files

url <- "http://www-air.larc.nasa.gov/cgi-bin/ArcView/actamerica.2016?C130=1"
doc <- read_html(url)

# getting everything within the CSS selector "td a"

all <- html_text(html_nodes(doc, "td a"))

# getting list of certain file names

filetype <- "PICARRO"
files <- all[grep(filetype, all)]

# this returns a list of all links on the page, 
# but I'm not sure how to match the links up with their names

html_attr(html_nodes(doc, "a"), "href")

Спасибо заранее за любую помощь.

а затем фильтровать по именам типов файлов

Ответы на вопрос(2)

Ваш ответ на вопрос

Популярные вопросы

Вы очень активны! Это здорово!

а затем фильтровать по именам типов файлов

Ответы на вопрос(2)

Ваш ответ на вопрос

Популярные вопросы