Resultados de la búsqueda a petición "text-mining"
Guarde y reutilice TfidfVectorizer en scikit learn
Estoy usando TfidfVectorizer en scikit learn para crear una matriz a partir de datos de texto. Ahora necesito guardar este objeto para reutilizarlo más tarde. Intenté usar pickle, pero me dio el siguiente error. loc=open('vectorizer.obj','w') ...
Agrupación de texto en MATLAB
Quiero hacer agrupaciones aglomerativas jerárquicas en textos en MATLAB. Digamos que tengo cuatro oraciones, I have a pen. I have a paper. I have a pencil. I have a cat.Quiero agrupar las cuatro oraciones anteriores para ver cuáles son más ...
Python Regex - Extrae texto entre (múltiples) expresiones en un archivo de texto
Soy un principiante de Python y estaría muy agradecido si pudiera ayudarme con mi problema de extracción de texto. Quiero extraer todo el texto, que se encuentra entre dos expresiones en un archivo de texto (el principio y el final de una ...
Cómo encontrar la palabra más cercana a un vector usando word2vec
Acabo de empezar a usar Word2vec y me preguntaba cómo podemos encontrar la palabra más cercana a un vector. Tengo este vector que es el vector promedio para un conjunto de vectores: array([-0.00449447, -0.00310097, 0.02421786, ...], ...
Minería de texto con el paquete tm - palabra derivada
Estoy haciendo un poco de minería de texto en R con el
¿Cómo determinar el lenguaje (natural) de un documento?
Tengo un conjunto de documentos en dos idiomas: inglés y alemán. No hay información meta utilizable sobre estos documentos, un programa puede ver el contenid...
R Tidytext y unnest_tokens error
Muy nuevo en R y he comenzado a usar el paquete tidytext. Estoy tratando de usar argumentos para alimentar elunnest_tokens funciono para poder hacer análisis de múltiples columnas. Entonces, en lugar de esto library(janeaustenr) ...
Extracción NGram eficiente de CPU y memoria con R
Escribí un algoritmo que extrae NGrams (bigrams, trigrams, ... hasta 5 gramos) de una lista de 50000 direcciones. Mi objetivo es tener para cada dirección un vector booleano que represente si los NGrams están presentes o no en la dirección. Por ...
tm: lea en el marco de datos, mantenga identificaciones de texto, construya DTM y únase a otro conjunto de datos
Estoy usando el paquete tm. Digo que tengo un marco de datos de 2 columnas, 500 filas. La primera columna es ID que se genera aleatoriamente y tiene tanto el carácter como el número: "txF87uyK" La segunda columna es texto real: "El clima de hoy ...