Resultados de la búsqueda a petición "tm"
Comportamiento inconsistente con las funciones de transformación tm_map cuando se usan múltiples núcleos
Otro título potencial para esta publicación podría ser "Cuando se procesa en paralelo en r, ¿importa la relación entre el número de núcleos, el tamaño del fragmento de bucle y el tamaño del objeto?" Tengo un corpus en el que estoy ejecutando ...
Cómo calcular la proximidad de palabras a un término específico en un documento
Estoy tratando de encontrar una manera de calcular las proximidades de palabras a un término específico en un documento, así como la proximidad promedio (por palabra). Sé que hay preguntas similares sobre SO, pero nada que me dé la respuesta que ...
Imposible ver resultados del texto `RTextTools :: toLower ()` en Document-Term-Matrix
Intento crear una matriz, para esto me gustaría reducir el texto. Para esto utilizo esta instrucción R: matrix = create_matrix(tweets[,1], toLower = TRUE, language="english", removeStopwords=FALSE, removeNumbers=TRUE, stemWords=TRUE)Aquí el ...
Crear N-Grams con tm y RWeka: funciona con VCorpus pero no con Corpus
Seguir las muchas guías para crearbiGramsusando los paquetes 'tm' y 'RWeka', me frustraba que solo1-gramosestaban siendo devueltos en eltdm. A través de muchas pruebas y errores descubrí que la función adecuada se logró usando 'VCorpus'pero no ...
Matriz de término de documento en R: el tokenizador bigram no funciona
Estoy tratando de hacer 2 matrices de términos de documentos para un corpus, una con unigramas y otra con bigramas. Sin embargo, la matriz bigram es actualmente idéntica a la matriz unigram, y no estoy seguro de por qué. El ...
Error al instalar paquetes antiguos en R
Estoy tratando de instalar una versión 0.6-2 de la biblioteca tm. He descargado el archivo tar.gz delarchivo [https://cran.r-project.org/src/contrib/Archive/tm/]y en RStudio seleccionó Herramientas -> Archivo -> Archivo de paquete para ...
eliminar duplicados de la lista en función de la similitud / relación semántica
R + tm: ¿Cómo elimino la duplicación de elementos en una lista, en función de la similitud semántica?v<-c("bank","banks","banking", "ford_suv',"toyota_suv","nissan_suv"). Mi solución esperada seríac("bank", "ford_suv',"toyota_suv","nissan_suv"). ...
¿Cómo analizo una cadena de fecha y hora que incluye tiempo fraccional?
Tengo una cadena de fecha y hora: 20: 48: 01.469 UTC MAR 31 2016 Me gustaría convertir esta representación de cadena de tiempo en unstruct tm utilizandostrptime, pero mi cadena de formato no funciona. ¿Hay un especificador de formato para ...
Cómo mantener los marcadores de inicio y fin de oración con quanteda
Estoy tratando de crear 3 gramos usando R'squanteda paquete. Estoy luchando por encontrar una manera de mantener los n-gramos al principio y al final de los marcadores de oración, el<s> y</s> como en el siguiente código. Pensé que usando ...
minería de texto con paquete tm en R, elimine palabras que comiencen desde [http] o cualquier otra palabra específica
Soy nuevo en R y minería de texto. Había creado una nube de palabras en el feed de Twitter relacionado con algún término. El problema al que me enfrento es que en el wordcloud muestra http: ... o htt ... ¿Cómo trato este problema? Intenté usar ...