Resultados de la búsqueda a petición "corpus"

3 la respuesta

Buscando un conjunto de datos para probar búsquedas de estilo FULLTEXT en [cerrado]

Estoy buscando un corpus de texto para ejecutar algunas búsquedas de datos de estilo de texto completo de prueba. O algo que puedo descargar, o un sistema que lo genera. Algo un poco más aleatorio sería mejor, p. 1,000,000 artículos de wikipedia ...

2 la respuesta

creando corpus de múltiples archivos de texto html

Tengo una lista de archivos html, tomé algunos textos de la web y los hice leer con elread_html. Mis nombres de archivos son como: a1 <- read_html(link of the text) a2 <- read_html(link of the text) . . . ## until: a100 <- read_html(link of ...

1 la respuesta

¿Cómo transformar una lista en un corpus en r?

En estopregunta [https://stackoverflow.com/questions/33920330/split-a-huge-dataframe-in-many-smaller-dataframes-to-create-a-corpus-in-r/] Pregunté cómo dividir un gran marco de datos para crear un corpus. Gracias a la respuesta pude crear una ...

1 la respuesta

¿Cómo etiqueto archivos de texto con hunpos en nltk?

¿Puede alguien ayudarme con la sintaxis de los hunpos que etiquetan un corpus en nltk? ¿Qué importo para lahunpos.HunPosTagger módulo [http://nltk.googlecode.com/svn/trunk/doc/api/nltk.tag.hunpos.HunposTagger-class.html] ? ¿Cómo hago ...

4 la respuesta

¿Instalar programáticamente corporaciones / modelos NLTK, es decir, sin el descargador de GUI?

Mi proyecto utiliza el NLTK. ¿Cómo puedo enumerar los requisitos del modelo y el corpus del proyecto para que puedan instalarse automáticamente? No quiero hacer clic en lanltk.download() GUI, instalando paquetes uno por uno. Además, cualquier ...

3 la respuesta

Necesita un diccionario de inglés o Corpus gratis, en última instancia para una base de datos MySQL [cerrado]

Estoy tratando de encontrar un diccionario descargable gratuito (o Corpus podría ser la mejor palabra) que puedo importar a MySQL. Necesito palabras para ten...

1 la respuesta

Haga el marco de datos de los términos más frecuentes de la N para múltiples corpora utilizando el paquete tm en R

Yo tengo varias

3 la respuesta

R Corpus está estropeando mi texto codificado UTF-8

Simplemente estoy tratando de crear un corpus de texto ruso codificado en UTF-8. El problema es que el método Corpus detm El paquete no codifica las cadenas correctamente. Aquí hay un ejemplo reproducible de mi problema: Cargue en el texto ...

2 la respuesta

El método similar del módulo nltk produce resultados diferentes en diferentes máquinas. ¿Por qué?

He enseñado algunas clases introductorias para la minería de texto con Python, y la clase probó el método similar con los textos de práctica proporcionados. Algunos estudiantes obtuvieron resultados diferentes para text1.similar () ...

4 la respuesta

Medios más eficientes de crear un corpus y DTM con 4M filas

Mi archivo tiene más de 4 millones de filas y necesito una forma más eficiente de convertir mis datos en un corpus y una matriz de términos de documentos para poder pasarlos a un clasificador bayesiano. Considere el siguiente ...