Resultados de la búsqueda a petición "text-mining"

4 la respuesta

¿Cómo limpio los datos de Twitter en R?

Extraje tweets de Twitter usando el paquete twitteR y los guardé en un archivo de texto. He realizado lo siguiente en el corpus xx<-tm_map(xx,removeNumbers, lazy=TRUE, 'mc.cores=1') xx<-tm_map(xx,stripWhitespace, lazy=TRUE, ...

3 la respuesta

¿Cómo usar OpenNLP para obtener etiquetas POS en R?

Aquí está el código R: library(NLP) library(openNLP) tagPOS <- function(x, ...) { s <- as.String(x) word_token_annotator <- Maxent_Word_Token_Annotator() a2 <- Annotation(1L, "sentence", 1L, nchar(s)) a2 <- annotate(s, word_token_annotator, a2) ...

1 la respuesta

Guarde y reutilice TfidfVectorizer en scikit learn

Estoy usando TfidfVectorizer en scikit learn para crear una matriz a partir de datos de texto. Ahora necesito guardar este objeto para reutilizarlo más tarde. Intenté usar pickle, pero me dio el siguiente error. loc=open('vectorizer.obj','w') ...

6 la respuesta

¿Cómo leer solo líneas en un archivo de texto después de cierta cadena usando Python?

Con Python, me gustaría leer en un diccionario todas las líneas en un archivo de texto que vienen después de una cadena en particular. Me gustaría hacer esto en miles de archivos de texto. Puedo identificar e imprimir la cadena particular ...

3 la respuesta

construir una lista de bordes de co-ocurrencia de palabras en R

Tengo un montón de oraciones y quiero construir la lista de bordes no dirigida de la coincidencia de palabras y ver la frecuencia de cada borde. Eché un vistazo a latm paquete pero no encontró funciones similares. ¿Hay algún paquete / script que ...

1 la respuesta

Big Text Corpus rompe tm_map

Me he estado rompiendo la cabeza por esto en los últimos días. Busqué en todos los archivos SO y probé las soluciones sugeridas, pero parece que no puedo hacer que esto funcione. Tengo conjuntos de documentos txt en carpetas como 2000 06, 1995 ...

2 la respuesta

Eliminar palabras demasiado comunes (aparecen en más del 80% de los documentos) en R

Estoy trabajando con el paquete 'tm' para crear un corpus. He realizado la mayoría de los pasos de preprocesamiento. Lo que resta es eliminar palabras demasiado comunes (términos que aparecen en más del 80% de los documentos). ¿Puede alguien ...

1 la respuesta

minería de texto árabe usando R [cerrado]

Soy un usuario nuevo y solo quiero obtener ayuda con mi trabajo en R. Estoy haciendo minería de texto en árabe y me encantaría tener ayuda para que alguien tenga experiencia en estos campos. Hasta ahora me sentí normalizar el texto árabe e ...

4 la respuesta

R-Project no tiene un método aplicable para 'meta' aplicado a un objeto de la clase "personaje"

Estoy tratando de ejecutar este código (Ubuntu 12.04, R 3.1.1) # Load requisite packages library(tm) library(ggplot2) library(lsa) # Place Enron email snippets into a single vector. text <- c( "To Mr. Ken Lay, I’m writing to urge you to donate ...

3 la respuesta

¿Cómo calcular TF * IDF para un único documento nuevo que se clasificará?

Estoy usando vectores de término de documento para representar una colección de documentos. yo sueloTF * IDF [http://en.wikipedia.org/wiki/Tf%E2%80%93idf]para calcular el peso del término para cada vector de documento. Entonces podría usar esta ...