Очистка веб-страницы, ссылок на страницу и формирование таблицы с помощью R
Здравствуйте, я новичок в использовании R для очистки данных из Интернета и, к сожалению, мало знаю о HTML и XML. Пытаюсь почистить каждую ссылку на историю на следующей родительской странице:http://www.who.int/csr/don/archive/year/2013/en/index.html, Мне не нужны никакие другие ссылки на родительской странице, но мне нужно создать таблицу со строкой для каждого URL-адреса истории и столбцами для соответствующего URL-адреса, заголовка истории, даты (она всегда в начале первое предложение после заголовка рассказа), а затем остальная часть текста страницы (которая может состоять из нескольких абзацев текста).
Я пытался адаптировать код вОчистка вики-страницы для «Периодической таблицы» и всех ссылок (и несколько связанных тем), но сталкиваются с трудностями. Любые советы или указатели будут с благодарностью. Вот что я пробовал до сих пор (с «?????», где у меня проблемы):
rm(list=ls())
library(XML)
library(plyr)
url = 'http://www.who.int/csr/don/archive/year/2013/en/index.html'
doc <- htmlParse(url)
links = getNodeSet(doc, ?????)
df = ldply(doc, function(x) {
text = xmlValue(x)
if (text=='') text=NULL
symbol = xmlGetAttr(x, '?????')
link = xmlGetAttr(x, 'href')
if (!is.null(text) & !is.null(symbol) & !is.null(link))
data.frame(symbol, text, link)
} )
df = head(df, ?????)