Reemplazar palabras en corpus de acuerdo con el marco de datos del diccionario
Estoy interesado en reemplazar todas las palabras en unatm
Objeto de cuerpo según un diccionario compuesto por un marco de datos de dos columnas, donde la primera columna es la palabra que debe coincidir y la segunda columna es la palabra de reemplazo
Estoy atascado con eltranslate
función. Yo viesta respuesta pero no puedo transformarlo en una función para pasar atm_map
.
Por favor considere el siguiente MWE
library(tm)
docs <- c("first text", "second text")
corp <- Corpus(VectorSource(docs))
dictionary <- data.frame(word = c('first', 'second', 'text'),
translation = c('primo', 'secondo', 'testo'))
translate <- function(text, dictionary) {
# Would like to replace each word of text with corresponding word in dictionary
}
corp_translated <- tm_map (corp, translate)
inspect(corp_translated)
# Expected result
# A corpus with 2 text documents
#
# The metadata consists of 2 tag-value pairs and a data frame
# Available tags are:
# create_date creator
# Available variables in the data frame are:
# MetaID
# [[1]]
# primo testo
# [[2]]
# secondo testo