Resultados de la búsqueda a petición "text-mining"

3 la respuesta

¿Cómo usar OpenNLP para obtener etiquetas POS en R?

Aquí está el código R: library(NLP) library(openNLP) tagPOS <- function(x, ...) { s <- as.String(x) word_token_annotator <- Maxent_Word_Token_Annotator() a2 <- Annotation(1L, "sentence", 1L, nchar(s)) a2 <- annotate(s, word_token_annotator, a2) ...

4 la respuesta

¿Cómo limpio los datos de Twitter en R?

Extraje tweets de Twitter usando el paquete twitteR y los guardé en un archivo de texto. He realizado lo siguiente en el corpus xx<-tm_map(xx,removeNumbers, lazy=TRUE, 'mc.cores=1') xx<-tm_map(xx,stripWhitespace, lazy=TRUE, ...

2 la respuesta

Extracción NGram eficiente de CPU y memoria con R

Escribí un algoritmo que extrae NGrams (bigrams, trigrams, ... hasta 5 gramos) de una lista de 50000 direcciones. Mi objetivo es tener para cada dirección un vector booleano que represente si los NGrams están presentes o no en la dirección. Por ...

1 la respuesta

todas las terminaciones de formas de palabras posibles de la raíz de una palabra (biomédica)

Estoy familiarizado con la derivación de palabras y la finalización del paquete tm en R. Estoy tratando de encontrar un método rápido y sucio para encontrar todas las variantes de una palabra dada (dentro de algún corpus). Por ejemplo, me ...

2 la respuesta

Vectorización de ngram de palabra realmente rápida en R

editar: El nuevo paquete text2vec es excelente y resuelve este problema (y muchos otros) realmente bien. text2vec en CRAN [https://cran.r-project.org/web/packages/text2vec/index.html] text2vec en github [https://github.com/dselivanov/text2vec] ...

2 la respuesta

Análisis de opinión de C # [cerrado]

¿Alguien sabe de una biblioteca de C # (preferiblemente de código abierto) que se pueda implementar para calcular el sentimiento general de un texto dado?

2 la respuesta

minería de texto con paquete tm en R, elimine palabras que comiencen desde [http] o cualquier otra palabra específica

Soy nuevo en R y minería de texto. Había creado una nube de palabras en el feed de Twitter relacionado con algún término. El problema al que me enfrento es que en el wordcloud muestra http: ... o htt ... ¿Cómo trato este problema? Intenté usar ...

1 la respuesta

"RTextTools" create_matrix recibió un error

Estaba ejecutando el paquete RTextTools para construir un modelo de clasificación de texto. Y cuando preparo el conjunto de datos de predicción e intenté transformarlo en matriz. Recibí un error como: Error in if (attr(weighting, "Acronym") == ...

1 la respuesta

Cómo encontrar la palabra más cercana a un vector usando word2vec

Acabo de empezar a usar Word2vec y me preguntaba cómo podemos encontrar la palabra más cercana a un vector. Tengo este vector que es el vector promedio para un conjunto de vectores: array([-0.00449447, -0.00310097, 0.02421786, ...], ...

5 la respuesta

tm: lea en el marco de datos, mantenga identificaciones de texto, construya DTM y únase a otro conjunto de datos

Estoy usando el paquete tm. Digo que tengo un marco de datos de 2 columnas, 500 filas. La primera columna es ID que se genera aleatoriamente y tiene tanto el carácter como el número: "txF87uyK" La segunda columna es texto real: "El clima de hoy ...