Resultados de la búsqueda a petición "text-mining"

1 la respuesta

R tm package crea matriz de términos más frecuentes

tengo un

1 la respuesta

Guarde y reutilice TfidfVectorizer en scikit learn

Estoy usando TfidfVectorizer en scikit learn para crear una matriz a partir de datos de texto. Ahora necesito guardar este objeto para reutilizarlo más tarde. Intenté usar pickle, pero me dio el siguiente error. loc=open('vectorizer.obj','w') ...

1 la respuesta

Agrupación de texto en MATLAB

Quiero hacer agrupaciones aglomerativas jerárquicas en textos en MATLAB. Digamos que tengo cuatro oraciones, I have a pen. I have a paper. I have a pencil. I have a cat.Quiero agrupar las cuatro oraciones anteriores para ver cuáles son más ...

1 la respuesta

Python Regex - Extrae texto entre (múltiples) expresiones en un archivo de texto

Soy un principiante de Python y estaría muy agradecido si pudiera ayudarme con mi problema de extracción de texto. Quiero extraer todo el texto, que se encuentra entre dos expresiones en un archivo de texto (el principio y el final de una ...

1 la respuesta

Cómo encontrar la palabra más cercana a un vector usando word2vec

Acabo de empezar a usar Word2vec y me preguntaba cómo podemos encontrar la palabra más cercana a un vector. Tengo este vector que es el vector promedio para un conjunto de vectores: array([-0.00449447, -0.00310097, 0.02421786, ...], ...

2 la respuesta

Minería de texto con el paquete tm - palabra derivada

Estoy haciendo un poco de minería de texto en R con el

11 la respuesta

¿Cómo determinar el lenguaje (natural) de un documento?

Tengo un conjunto de documentos en dos idiomas: inglés y alemán. No hay información meta utilizable sobre estos documentos, un programa puede ver el contenid...

1 la respuesta

R Tidytext y unnest_tokens error

Muy nuevo en R y he comenzado a usar el paquete tidytext. Estoy tratando de usar argumentos para alimentar elunnest_tokens funciono para poder hacer análisis de múltiples columnas. Entonces, en lugar de esto library(janeaustenr) ...

2 la respuesta

Extracción NGram eficiente de CPU y memoria con R

Escribí un algoritmo que extrae NGrams (bigrams, trigrams, ... hasta 5 gramos) de una lista de 50000 direcciones. Mi objetivo es tener para cada dirección un vector booleano que represente si los NGrams están presentes o no en la dirección. Por ...

5 la respuesta

tm: lea en el marco de datos, mantenga identificaciones de texto, construya DTM y únase a otro conjunto de datos

Estoy usando el paquete tm. Digo que tengo un marco de datos de 2 columnas, 500 filas. La primera columna es ID que se genera aleatoriamente y tiene tanto el carácter como el número: "txF87uyK" La segunda columna es texto real: "El clima de hoy ...