Raspar una página web, enlaces en una página y formar una tabla con R
Hola, soy nuevo en el uso de R para extraer datos de Internet y, lamentablemente, no sé mucho sobre HTML y XML. Estoy tratando de raspar cada enlace de la historia en la siguiente página para padres:http://www.who.int/csr/don/archive/year/2013/en/index.html. No me importa ninguno de los otros enlaces en la página principal, pero necesito crear una tabla con una fila para cada URL de la historia y columnas para la URL correspondiente, el título de la historia, la fecha (siempre está al principio de la primera oración después del título de la historia), y luego el resto del texto de la página (que puede ser varios párrafos del texto).
He intentado adaptar el código enRaspando una página wiki para la "tabla periódica" y todos los enlaces (y varios hilos relacionados) pero se encuentran con dificultades. Cualquier consejo o puntero sería agradecido. Esto es lo que he intentado hasta ahora (con "?????" donde me encuentro con problemas):
rm(list=ls())
library(XML)
library(plyr)
url = 'http://www.who.int/csr/don/archive/year/2013/en/index.html'
doc <- htmlParse(url)
links = getNodeSet(doc, ?????)
df = ldply(doc, function(x) {
text = xmlValue(x)
if (text=='') text=NULL
symbol = xmlGetAttr(x, '?????')
link = xmlGetAttr(x, 'href')
if (!is.null(text) & !is.null(symbol) & !is.null(link))
data.frame(symbol, text, link)
} )
df = head(df, ?????)