Удаление тегов html из строки в R

Question

Jun 21, 2013, 03:33 AM

Удаление тегов html из строки в R

Я пытаюсь прочитать исходный веб-страницы в R и обработать его как строки. Я'Я пытаюсь убрать абзацы и удалить теги html из текста абзаца. Я'Я сталкиваюсь со следующей проблемой:

Я попытался реализовать функцию для удаления тегов HTML:

cleanFun=function(fullStr)
{
 #find location of tags and citations
 tagLoc=cbind(str_locate_all(fullStr,"")[[1]][,1]);

 #create storage for tag strings
 tagStrings=list()

 #extract and store tag strings
 for(i in 1:dim(tagLoc)[1])
 {
   tagStrings[i]=substr(fullStr,tagLoc[i,1],tagLoc[i,2]);
 }

 #remove tag strings from paragraph
 newStr=fullStr
 for(i in 1:length(tagStrings))
 {
   newStr=str_replace_all(newStr,tagStrings[[i]][1],"")
 }
 return(newStr)
};

Это работает для некоторых тегов, но не для всех тегов, например, где это не получается, следующая строка:

test="junk junk<a href="\"/wiki/abstraction_(mathematics)\"" title="\"abstraction" (mathematics)\"=""> junk junk"
</a>

Удаление тегов html из строки в R

Ответы на вопрос(7)

Ваш ответ на вопрос

Популярные вопросы

Вы очень активны! Это здорово!

Удаление тегов html из строки в R

Ответы на вопрос(7)

Ваш ответ на вопрос

Популярные вопросы