Resultados de la búsqueda a petición "text-mining"
R Tidytext y unnest_tokens error
Muy nuevo en R y he comenzado a usar el paquete tidytext. Estoy tratando de usar argumentos para alimentar elunnest_tokens funciono para poder hacer análisis de múltiples columnas. Entonces, en lugar de esto library(janeaustenr) ...
¿Cómo encontrar la frecuencia de ngram de una columna en un marco de datos de pandas?
A continuación se muestra el marco de datos de pandas de entrada que tengo. [/imgs/ltSrD.png] Quiero encontrar la frecuencia de unigramas y bigramas. A continuación se muestra una muestra de lo que estoy esperando. [/imgs/7NOKk.png] ¿Cómo ...
Error de memoria en python usando una matriz numpy
Recibo el siguiente error para este código: model = lda.LDA(n_topics=15, n_iter=50, random_state=1) model.fit(X) topic_word = model.topic_word_ print("type(topic_word): {}".format(type(topic_word))) print("shape: {}".format(topic_word.shape)) ...
Cómo mantener los marcadores de inicio y fin de oración con quanteda
Estoy tratando de crear 3 gramos usando R'squanteda paquete. Estoy luchando por encontrar una manera de mantener los n-gramos al principio y al final de los marcadores de oración, el<s> y</s> como en el siguiente código. Pensé que usando ...
Cómo encontrar la palabra más cercana a un vector usando word2vec
Acabo de empezar a usar Word2vec y me preguntaba cómo podemos encontrar la palabra más cercana a un vector. Tengo este vector que es el vector promedio para un conjunto de vectores: array([-0.00449447, -0.00310097, 0.02421786, ...], ...
"RTextTools" create_matrix recibió un error
Estaba ejecutando el paquete RTextTools para construir un modelo de clasificación de texto. Y cuando preparo el conjunto de datos de predicción e intenté transformarlo en matriz. Recibí un error como: Error in if (attr(weighting, "Acronym") == ...
minería de texto con paquete tm en R, elimine palabras que comiencen desde [http] o cualquier otra palabra específica
Soy nuevo en R y minería de texto. Había creado una nube de palabras en el feed de Twitter relacionado con algún término. El problema al que me enfrento es que en el wordcloud muestra http: ... o htt ... ¿Cómo trato este problema? Intenté usar ...
todas las terminaciones de formas de palabras posibles de la raíz de una palabra (biomédica)
Estoy familiarizado con la derivación de palabras y la finalización del paquete tm en R. Estoy tratando de encontrar un método rápido y sucio para encontrar todas las variantes de una palabra dada (dentro de algún corpus). Por ejemplo, me ...
Vectorización de ngram de palabra realmente rápida en R
editar: El nuevo paquete text2vec es excelente y resuelve este problema (y muchos otros) realmente bien. text2vec en CRAN [https://cran.r-project.org/web/packages/text2vec/index.html] text2vec en github [https://github.com/dselivanov/text2vec] ...
Extracción NGram eficiente de CPU y memoria con R
Escribí un algoritmo que extrae NGrams (bigrams, trigrams, ... hasta 5 gramos) de una lista de 50000 direcciones. Mi objetivo es tener para cada dirección un vector booleano que represente si los NGrams están presentes o no en la dirección. Por ...