Comparação simples de dois textos em R
Eu quero comparar dois textos com a semelhança, portanto, preciso de uma função simples para listar clara e cronologicamente as palavras e frases que ocorrem nos dois textos. estas palavras / frases devem ser destacadas ou sublinhadas para melhor visualização)
Na base das idéias de @joris Meys, adicionei uma matriz para dividir o texto em frases e frases subordinada
é assim que se parece:
textparts <- function (text){
textparts <- c("\\,", "\\.")
i <- 1
while(i<=length(textparts)){
text <- unlist(strsplit(text, textparts[i]))
i <- i+1
}
return (text)
}
textparts1 <- textparts("This is a complete sentence, whereas this is a dependent clause. This thing works.")
textparts2 <- textparts("This could be a sentence, whereas this is a dependent clause. Plagiarism is not cool. This thing works.")
commonWords <- intersect(textparts1, textparts2)
commonWords <- paste("\\<(",commonWords,")\\>",sep="")
for(x in commonWords){
textparts1 <- gsub(x, "\\1*", textparts1,ignore.case=TRUE)
textparts2 <- gsub(x, "\\1*", textparts2,ignore.case=TRUE)
}
return(list(textparts1,textparts2))
No entanto, às vezes funciona, às vezes nã
Gostaria de ter resultados como estes:
> return(list(textparts1,textparts2))
[[1]]
[1] "This is a complete sentence" " whereas this is a dependent clause*" " This thing works*"
[[2]]
[1] "This could be a sentence" " whereas this is a dependent clause*" " Plagiarism is not cool" " This thing works*"
whereas não obtive resultados.