Resultados de la búsqueda a petición "tm"

1 la respuesta

eliminar duplicados de la lista en función de la similitud / relación semántica

R + tm: ¿Cómo elimino la duplicación de elementos en una lista, en función de la similitud semántica?v<-c("bank","banks","banking", "ford_suv',"toyota_suv","nissan_suv"). Mi solución esperada seríac("bank", "ford_suv',"toyota_suv","nissan_suv"). ...

1 la respuesta

Error al instalar paquetes antiguos en R

Estoy tratando de instalar una versión 0.6-2 de la biblioteca tm. He descargado el archivo tar.gz delarchivo [https://cran.r-project.org/src/contrib/Archive/tm/]y en RStudio seleccionó Herramientas -> Archivo -> Archivo de paquete para ...

1 la respuesta

Matriz de término de documento en R: el tokenizador bigram no funciona

Estoy tratando de hacer 2 matrices de términos de documentos para un corpus, una con unigramas y otra con bigramas. Sin embargo, la matriz bigram es actualmente idéntica a la matriz unigram, y no estoy seguro de por qué. El ...

1 la respuesta

Crear N-Grams con tm y RWeka: funciona con VCorpus pero no con Corpus

Seguir las muchas guías para crearbiGramsusando los paquetes 'tm' y 'RWeka', me frustraba que solo1-gramosestaban siendo devueltos en eltdm. A través de muchas pruebas y errores descubrí que la función adecuada se logró usando 'VCorpus'pero no ...

1 la respuesta

Imposible ver resultados del texto `RTextTools :: toLower ()` en Document-Term-Matrix

Intento crear una matriz, para esto me gustaría reducir el texto. Para esto utilizo esta instrucción R: matrix = create_matrix(tweets[,1], toLower = TRUE, language="english", removeStopwords=FALSE, removeNumbers=TRUE, stemWords=TRUE)Aquí el ...

2 la respuesta

Cómo calcular la proximidad de palabras a un término específico en un documento

Estoy tratando de encontrar una manera de calcular las proximidades de palabras a un término específico en un documento, así como la proximidad promedio (por palabra). Sé que hay preguntas similares sobre SO, pero nada que me dé la respuesta que ...

0 la respuesta

Comportamiento inconsistente con las funciones de transformación tm_map cuando se usan múltiples núcleos

Otro título potencial para esta publicación podría ser "Cuando se procesa en paralelo en r, ¿importa la relación entre el número de núcleos, el tamaño del fragmento de bucle y el tamaño del objeto?" Tengo un corpus en el que estoy ejecutando ...

5 la respuesta

tm: lea en el marco de datos, mantenga identificaciones de texto, construya DTM y únase a otro conjunto de datos

Estoy usando el paquete tm. Digo que tengo un marco de datos de 2 columnas, 500 filas. La primera columna es ID que se genera aleatoriamente y tiene tanto el carácter como el número: "txF87uyK" La segunda columna es texto real: "El clima de hoy ...