Resultados de la búsqueda a petición "text-mining"

3 la respuesta

¿Cómo calcular TF * IDF para un único documento nuevo que se clasificará?

Estoy usando vectores de término de documento para representar una colección de documentos. yo sueloTF * IDF [http://en.wikipedia.org/wiki/Tf%E2%80%93idf]para calcular el peso del término para cada vector de documento. Entonces podría usar esta ...

1 la respuesta

¿Por qué dos vectores no es similitud pero el resultado es 1?

Estoy usando la fórmula de similitud de coseno para calcular la similitud entre dos vectores. Probé dos vectores diferentes como este: Vector1 (-1237373741, 27, 1, 1, 331289590, 1818540802) Vector2 (-1237373741, 49, 1, 1, 331289590, ...

4 la respuesta

R-Project no tiene un método aplicable para 'meta' aplicado a un objeto de la clase "personaje"

Estoy tratando de ejecutar este código (Ubuntu 12.04, R 3.1.1) # Load requisite packages library(tm) library(ggplot2) library(lsa) # Place Enron email snippets into a single vector. text <- c( "To Mr. Ken Lay, I’m writing to urge you to donate ...

1 la respuesta

Minería de texto en R | gestión de la memoria

Estoy usando un archivo de texto de 160 MB y haciendo minería de datos, pero parece que una vez que lo convierto a matriz para conocer la frecuencia de las palabras, entonces demanda demasiada memoria, ¿alguien puede ayudarme en esto? > dtm <- ...

1 la respuesta

minería de texto árabe usando R [cerrado]

Soy un usuario nuevo y solo quiero obtener ayuda con mi trabajo en R. Estoy haciendo minería de texto en árabe y me encantaría tener ayuda para que alguien tenga experiencia en estos campos. Hasta ahora me sentí normalizar el texto árabe e ...

2 la respuesta

Eliminar palabras demasiado comunes (aparecen en más del 80% de los documentos) en R

Estoy trabajando con el paquete 'tm' para crear un corpus. He realizado la mayoría de los pasos de preprocesamiento. Lo que resta es eliminar palabras demasiado comunes (términos que aparecen en más del 80% de los documentos). ¿Puede alguien ...

1 la respuesta

Big Text Corpus rompe tm_map

Me he estado rompiendo la cabeza por esto en los últimos días. Busqué en todos los archivos SO y probé las soluciones sugeridas, pero parece que no puedo hacer que esto funcione. Tengo conjuntos de documentos txt en carpetas como 2000 06, 1995 ...

3 la respuesta

construir una lista de bordes de co-ocurrencia de palabras en R

Tengo un montón de oraciones y quiero construir la lista de bordes no dirigida de la coincidencia de palabras y ver la frecuencia de cada borde. Eché un vistazo a latm paquete pero no encontró funciones similares. ¿Hay algún paquete / script que ...

6 la respuesta

¿Cómo leer solo líneas en un archivo de texto después de cierta cadena usando Python?

Con Python, me gustaría leer en un diccionario todas las líneas en un archivo de texto que vienen después de una cadena en particular. Me gustaría hacer esto en miles de archivos de texto. Puedo identificar e imprimir la cadena particular ...

1 la respuesta

Guarde y reutilice TfidfVectorizer en scikit learn

Estoy usando TfidfVectorizer en scikit learn para crear una matriz a partir de datos de texto. Ahora necesito guardar este objeto para reutilizarlo más tarde. Intenté usar pickle, pero me dio el siguiente error. loc=open('vectorizer.obj','w') ...