Resultados de la búsqueda a petición "text-mining"
¿Cómo usar OpenNLP para obtener etiquetas POS en R?
Aquí está el código R: library(NLP) library(openNLP) tagPOS <- function(x, ...) { s <- as.String(x) word_token_annotator <- Maxent_Word_Token_Annotator() a2 <- Annotation(1L, "sentence", 1L, nchar(s)) a2 <- annotate(s, word_token_annotator, a2) ...
¿Cómo limpio los datos de Twitter en R?
Extraje tweets de Twitter usando el paquete twitteR y los guardé en un archivo de texto. He realizado lo siguiente en el corpus xx<-tm_map(xx,removeNumbers, lazy=TRUE, 'mc.cores=1') xx<-tm_map(xx,stripWhitespace, lazy=TRUE, ...
Extracción NGram eficiente de CPU y memoria con R
Escribí un algoritmo que extrae NGrams (bigrams, trigrams, ... hasta 5 gramos) de una lista de 50000 direcciones. Mi objetivo es tener para cada dirección un vector booleano que represente si los NGrams están presentes o no en la dirección. Por ...
todas las terminaciones de formas de palabras posibles de la raíz de una palabra (biomédica)
Estoy familiarizado con la derivación de palabras y la finalización del paquete tm en R. Estoy tratando de encontrar un método rápido y sucio para encontrar todas las variantes de una palabra dada (dentro de algún corpus). Por ejemplo, me ...
Vectorización de ngram de palabra realmente rápida en R
editar: El nuevo paquete text2vec es excelente y resuelve este problema (y muchos otros) realmente bien. text2vec en CRAN [https://cran.r-project.org/web/packages/text2vec/index.html] text2vec en github [https://github.com/dselivanov/text2vec] ...
Análisis de opinión de C # [cerrado]
¿Alguien sabe de una biblioteca de C # (preferiblemente de código abierto) que se pueda implementar para calcular el sentimiento general de un texto dado?
minería de texto con paquete tm en R, elimine palabras que comiencen desde [http] o cualquier otra palabra específica
Soy nuevo en R y minería de texto. Había creado una nube de palabras en el feed de Twitter relacionado con algún término. El problema al que me enfrento es que en el wordcloud muestra http: ... o htt ... ¿Cómo trato este problema? Intenté usar ...
"RTextTools" create_matrix recibió un error
Estaba ejecutando el paquete RTextTools para construir un modelo de clasificación de texto. Y cuando preparo el conjunto de datos de predicción e intenté transformarlo en matriz. Recibí un error como: Error in if (attr(weighting, "Acronym") == ...
Cómo encontrar la palabra más cercana a un vector usando word2vec
Acabo de empezar a usar Word2vec y me preguntaba cómo podemos encontrar la palabra más cercana a un vector. Tengo este vector que es el vector promedio para un conjunto de vectores: array([-0.00449447, -0.00310097, 0.02421786, ...], ...
tm: lea en el marco de datos, mantenga identificaciones de texto, construya DTM y únase a otro conjunto de datos
Estoy usando el paquete tm. Digo que tengo un marco de datos de 2 columnas, 500 filas. La primera columna es ID que se genera aleatoriamente y tiene tanto el carácter como el número: "txF87uyK" La segunda columna es texto real: "El clima de hoy ...