Resultados de la búsqueda a petición "tm"
tm pierde los metadatos al aplicar tm_map
Tengo un problema (pequeño) con la biblioteca tm r. digo que tengo un corpus: # boilerplate bcorp <- c("one","two","three","four","five") myCorpus <- Corpus(VectorSource(bcorp), list(lanuage = "en_US")) tdm <- TermDocumentMatrix(myCorpus) ...
Big Text Corpus rompe tm_map
Me he estado rompiendo la cabeza por esto en los últimos días. Busqué en todos los archivos SO y probé las soluciones sugeridas, pero parece que no puedo hacer que esto funcione. Tengo conjuntos de documentos txt en carpetas como 2000 06, 1995 ...
eliminar duplicados de la lista en función de la similitud / relación semántica
R + tm: ¿Cómo elimino la duplicación de elementos en una lista, en función de la similitud semántica?v<-c("bank","banks","banking", "ford_suv',"toyota_suv","nissan_suv"). Mi solución esperada seríac("bank", "ford_suv',"toyota_suv","nissan_suv"). ...
Error al instalar paquetes antiguos en R
Estoy tratando de instalar una versión 0.6-2 de la biblioteca tm. He descargado el archivo tar.gz delarchivo [https://cran.r-project.org/src/contrib/Archive/tm/]y en RStudio seleccionó Herramientas -> Archivo -> Archivo de paquete para ...
Matriz de término de documento en R: el tokenizador bigram no funciona
Estoy tratando de hacer 2 matrices de términos de documentos para un corpus, una con unigramas y otra con bigramas. Sin embargo, la matriz bigram es actualmente idéntica a la matriz unigram, y no estoy seguro de por qué. El ...
Crear N-Grams con tm y RWeka: funciona con VCorpus pero no con Corpus
Seguir las muchas guías para crearbiGramsusando los paquetes 'tm' y 'RWeka', me frustraba que solo1-gramosestaban siendo devueltos en eltdm. A través de muchas pruebas y errores descubrí que la función adecuada se logró usando 'VCorpus'pero no ...
Imposible ver resultados del texto `RTextTools :: toLower ()` en Document-Term-Matrix
Intento crear una matriz, para esto me gustaría reducir el texto. Para esto utilizo esta instrucción R: matrix = create_matrix(tweets[,1], toLower = TRUE, language="english", removeStopwords=FALSE, removeNumbers=TRUE, stemWords=TRUE)Aquí el ...
¿Cómo creo un corpus de archivos * .docx con tm?
Tengo una colección de tipo de archivo mixto de documentos de MS Word. Algunos archivos son * .doc y otros son * .docx. Estoy aprendiendo a usar
Minería de texto con el paquete tm - palabra derivada
Estoy haciendo un poco de minería de texto en R con el