Resultados de la búsqueda a petición "text-mining"

1 la respuesta

todas las terminaciones de formas de palabras posibles de la raíz de una palabra (biomédica)

Estoy familiarizado con la derivación de palabras y la finalización del paquete tm en R. Estoy tratando de encontrar un método rápido y sucio para encontrar todas las variantes de una palabra dada (dentro de algún corpus). Por ejemplo, me ...

1 la respuesta

"RTextTools" create_matrix recibió un error

Estaba ejecutando el paquete RTextTools para construir un modelo de clasificación de texto. Y cuando preparo el conjunto de datos de predicción e intenté transformarlo en matriz. Recibí un error como: Error in if (attr(weighting, "Acronym") == ...

1 la respuesta

Cómo encontrar la palabra más cercana a un vector usando word2vec

Acabo de empezar a usar Word2vec y me preguntaba cómo podemos encontrar la palabra más cercana a un vector. Tengo este vector que es el vector promedio para un conjunto de vectores: array([-0.00449447, -0.00310097, 0.02421786, ...], ...

1 la respuesta

Error de memoria en python usando una matriz numpy

Recibo el siguiente error para este código: model = lda.LDA(n_topics=15, n_iter=50, random_state=1) model.fit(X) topic_word = model.topic_word_ print("type(topic_word): {}".format(type(topic_word))) print("shape: {}".format(topic_word.shape)) ...

1 la respuesta

Agrupación de texto en MATLAB

Quiero hacer agrupaciones aglomerativas jerárquicas en textos en MATLAB. Digamos que tengo cuatro oraciones, I have a pen. I have a paper. I have a pencil. I have a cat.Quiero agrupar las cuatro oraciones anteriores para ver cuáles son más ...

1 la respuesta

¿Cómo encontrar la frecuencia de ngram de una columna en un marco de datos de pandas?

A continuación se muestra el marco de datos de pandas de entrada que tengo. [/imgs/ltSrD.png] Quiero encontrar la frecuencia de unigramas y bigramas. A continuación se muestra una muestra de lo que estoy esperando. [/imgs/7NOKk.png] ¿Cómo ...

1 la respuesta

R Tidytext y unnest_tokens error

Muy nuevo en R y he comenzado a usar el paquete tidytext. Estoy tratando de usar argumentos para alimentar elunnest_tokens funciono para poder hacer análisis de múltiples columnas. Entonces, en lugar de esto library(janeaustenr) ...

1 la respuesta

Cómo dividir los datos de la conversación en pares de (Contexto, Respuesta)

Estoy usando el modelo Gensim Doc2Vec, tratando de agrupar partes de las conversaciones de atención al cliente. Mi objetivo es dar al equipo de soporte una sugerencia de respuesta automática. Figura 1:muestra un ejemplo de conversaciones donde ...

1 la respuesta

¿Por qué dos vectores no es similitud pero el resultado es 1?

Estoy usando la fórmula de similitud de coseno para calcular la similitud entre dos vectores. Probé dos vectores diferentes como este: Vector1 (-1237373741, 27, 1, 1, 331289590, 1818540802) Vector2 (-1237373741, 49, 1, 1, 331289590, ...

1 la respuesta

Agrupación de texto usando Scipy Hierarchy Clustering en Python

Tengo un corpus de texto que contiene más de 1000 artículos cada uno en una línea separada. Estoy tratando de usar Hierarchy Clustering usando Scipy en python para producir grupos de artículos relacionados. Este es el código que usé para hacer el ...