Resultados de la búsqueda a petición "corpus"

2 la respuesta

creando corpus de múltiples archivos de texto html

Tengo una lista de archivos html, tomé algunos textos de la web y los hice leer con elread_html. Mis nombres de archivos son como: a1 <- read_html(link of the text) a2 <- read_html(link of the text) . . . ## until: a100 <- read_html(link of ...

1 la respuesta

¿Cómo transformar una lista en un corpus en r?

En estopregunta [https://stackoverflow.com/questions/33920330/split-a-huge-dataframe-in-many-smaller-dataframes-to-create-a-corpus-in-r/] Pregunté cómo dividir un gran marco de datos para crear un corpus. Gracias a la respuesta pude crear una ...

2 la respuesta

El método similar del módulo nltk produce resultados diferentes en diferentes máquinas. ¿Por qué?

He enseñado algunas clases introductorias para la minería de texto con Python, y la clase probó el método similar con los textos de práctica proporcionados. Algunos estudiantes obtuvieron resultados diferentes para text1.similar () ...

3 la respuesta

¿Cómo puedo imprimir todo el contenido de Wordnet (preferiblemente con NLTK)?

NLTK proporciona funciones para imprimir todas las palabras en el corpus Brown (o Gutenberg). Pero la función equivalente no parece funcionar en Wordnet. ¿Hay alguna manera de hacer esto a través de NLTK? Si no lo hay, ¿cómo podría uno ...

2 la respuesta

Cómo seleccionar solo un subconjunto de términos de corpus para la creación de TermDocumentMatrix en tm

Tengo un gran corpus, y estoy interesado en la aparición de un puñado de términos que conozco por adelantado. ¿Hay alguna manera de crear una matriz de documentos de término a partir del corpus usando eltm paquete, donde solo se deben usar e ...

4 la respuesta

Medios más eficientes de crear un corpus y DTM con 4M filas

Mi archivo tiene más de 4 millones de filas y necesito una forma más eficiente de convertir mis datos en un corpus y una matriz de términos de documentos para poder pasarlos a un clasificador bayesiano. Considere el siguiente ...

3 la respuesta

R Corpus está estropeando mi texto codificado UTF-8

Simplemente estoy tratando de crear un corpus de texto ruso codificado en UTF-8. El problema es que el método Corpus detm El paquete no codifica las cadenas correctamente. Aquí hay un ejemplo reproducible de mi problema: Cargue en el texto ...

4 la respuesta

Error de DocumentTermMatrix en argumento Corpus

Tengo el siguiente código: # returns string w/o leading or trailing whitespace trim <- function (x) gsub("^\\s+|\\s+$", "", x) news_corpus <- Corpus(VectorSource(news_raw$text)) # a column of strings. corpus_clean <- tm_map(news_corpus, tolower) ...

1 la respuesta

Acelerar el procesamiento de grandes marcos de datos en R

1 la respuesta

Clasificación usando corpus de revisión de películas en NLTK / Python

Estoy buscando hacer alguna clasificación en la vena deNLTK Capítulo 6. El libro parece omitir un paso en la creación de categorías, y no estoy seguro de lo ...