Resultados de la búsqueda a petición "text-mining"

1 la respuesta

R Tidytext y unnest_tokens error

Muy nuevo en R y he comenzado a usar el paquete tidytext. Estoy tratando de usar argumentos para alimentar elunnest_tokens funciono para poder hacer análisis de múltiples columnas. Entonces, en lugar de esto library(janeaustenr) ...

1 la respuesta

¿Cómo encontrar la frecuencia de ngram de una columna en un marco de datos de pandas?

A continuación se muestra el marco de datos de pandas de entrada que tengo. [/imgs/ltSrD.png] Quiero encontrar la frecuencia de unigramas y bigramas. A continuación se muestra una muestra de lo que estoy esperando. [/imgs/7NOKk.png] ¿Cómo ...

1 la respuesta

Error de memoria en python usando una matriz numpy

Recibo el siguiente error para este código: model = lda.LDA(n_topics=15, n_iter=50, random_state=1) model.fit(X) topic_word = model.topic_word_ print("type(topic_word): {}".format(type(topic_word))) print("shape: {}".format(topic_word.shape)) ...

2 la respuesta

Cómo mantener los marcadores de inicio y fin de oración con quanteda

Estoy tratando de crear 3 gramos usando R'squanteda paquete. Estoy luchando por encontrar una manera de mantener los n-gramos al principio y al final de los marcadores de oración, el<s> y</s> como en el siguiente código. Pensé que usando ...

1 la respuesta

Cómo encontrar la palabra más cercana a un vector usando word2vec

Acabo de empezar a usar Word2vec y me preguntaba cómo podemos encontrar la palabra más cercana a un vector. Tengo este vector que es el vector promedio para un conjunto de vectores: array([-0.00449447, -0.00310097, 0.02421786, ...], ...

1 la respuesta

"RTextTools" create_matrix recibió un error

Estaba ejecutando el paquete RTextTools para construir un modelo de clasificación de texto. Y cuando preparo el conjunto de datos de predicción e intenté transformarlo en matriz. Recibí un error como: Error in if (attr(weighting, "Acronym") == ...

2 la respuesta

minería de texto con paquete tm en R, elimine palabras que comiencen desde [http] o cualquier otra palabra específica

Soy nuevo en R y minería de texto. Había creado una nube de palabras en el feed de Twitter relacionado con algún término. El problema al que me enfrento es que en el wordcloud muestra http: ... o htt ... ¿Cómo trato este problema? Intenté usar ...

1 la respuesta

todas las terminaciones de formas de palabras posibles de la raíz de una palabra (biomédica)

Estoy familiarizado con la derivación de palabras y la finalización del paquete tm en R. Estoy tratando de encontrar un método rápido y sucio para encontrar todas las variantes de una palabra dada (dentro de algún corpus). Por ejemplo, me ...

2 la respuesta

Vectorización de ngram de palabra realmente rápida en R

editar: El nuevo paquete text2vec es excelente y resuelve este problema (y muchos otros) realmente bien. text2vec en CRAN [https://cran.r-project.org/web/packages/text2vec/index.html] text2vec en github [https://github.com/dselivanov/text2vec] ...

2 la respuesta

Extracción NGram eficiente de CPU y memoria con R

Escribí un algoritmo que extrae NGrams (bigrams, trigrams, ... hasta 5 gramos) de una lista de 50000 direcciones. Mi objetivo es tener para cada dirección un vector booleano que represente si los NGrams están presentes o no en la dirección. Por ...