Удаление тегов html из строки в R
Я пытаюсь прочитать исходный веб-страницы в R и обработать его как строки. Я'Я пытаюсь убрать абзацы и удалить теги html из текста абзаца. Я'Я сталкиваюсь со следующей проблемой:
Я попытался реализовать функцию для удаления тегов HTML:
cleanFun=function(fullStr)
{
#find location of tags and citations
tagLoc=cbind(str_locate_all(fullStr,"")[[1]][,1]);
#create storage for tag strings
tagStrings=list()
#extract and store tag strings
for(i in 1:dim(tagLoc)[1])
{
tagStrings[i]=substr(fullStr,tagLoc[i,1],tagLoc[i,2]);
}
#remove tag strings from paragraph
newStr=fullStr
for(i in 1:length(tagStrings))
{
newStr=str_replace_all(newStr,tagStrings[[i]][1],"")
}
return(newStr)
};
Это работает для некоторых тегов, но не для всех тегов, например, где это не получается, следующая строка:
test="junk junk<a href="\"/wiki/abstraction_(mathematics)\"" title="\"abstraction" (mathematics)\"=""> junk junk"
</a>