Resultados de la búsqueda a petición "corpus"
Buscando un conjunto de datos para probar búsquedas de estilo FULLTEXT en [cerrado]
Estoy buscando un corpus de texto para ejecutar algunas búsquedas de datos de estilo de texto completo de prueba. O algo que puedo descargar, o un sistema que lo genera. Algo un poco más aleatorio sería mejor, p. 1,000,000 artículos de wikipedia ...
creando corpus de múltiples archivos de texto html
Tengo una lista de archivos html, tomé algunos textos de la web y los hice leer con elread_html. Mis nombres de archivos son como: a1 <- read_html(link of the text) a2 <- read_html(link of the text) . . . ## until: a100 <- read_html(link of ...
¿Cómo transformar una lista en un corpus en r?
En estopregunta [https://stackoverflow.com/questions/33920330/split-a-huge-dataframe-in-many-smaller-dataframes-to-create-a-corpus-in-r/] Pregunté cómo dividir un gran marco de datos para crear un corpus. Gracias a la respuesta pude crear una ...
¿Cómo etiqueto archivos de texto con hunpos en nltk?
¿Puede alguien ayudarme con la sintaxis de los hunpos que etiquetan un corpus en nltk? ¿Qué importo para lahunpos.HunPosTagger módulo [http://nltk.googlecode.com/svn/trunk/doc/api/nltk.tag.hunpos.HunposTagger-class.html] ? ¿Cómo hago ...
¿Instalar programáticamente corporaciones / modelos NLTK, es decir, sin el descargador de GUI?
Mi proyecto utiliza el NLTK. ¿Cómo puedo enumerar los requisitos del modelo y el corpus del proyecto para que puedan instalarse automáticamente? No quiero hacer clic en lanltk.download() GUI, instalando paquetes uno por uno. Además, cualquier ...
Necesita un diccionario de inglés o Corpus gratis, en última instancia para una base de datos MySQL [cerrado]
Estoy tratando de encontrar un diccionario descargable gratuito (o Corpus podría ser la mejor palabra) que puedo importar a MySQL. Necesito palabras para ten...
R Corpus está estropeando mi texto codificado UTF-8
Simplemente estoy tratando de crear un corpus de texto ruso codificado en UTF-8. El problema es que el método Corpus detm El paquete no codifica las cadenas correctamente. Aquí hay un ejemplo reproducible de mi problema: Cargue en el texto ...
El método similar del módulo nltk produce resultados diferentes en diferentes máquinas. ¿Por qué?
He enseñado algunas clases introductorias para la minería de texto con Python, y la clase probó el método similar con los textos de práctica proporcionados. Algunos estudiantes obtuvieron resultados diferentes para text1.similar () ...
Medios más eficientes de crear un corpus y DTM con 4M filas
Mi archivo tiene más de 4 millones de filas y necesito una forma más eficiente de convertir mis datos en un corpus y una matriz de términos de documentos para poder pasarlos a un clasificador bayesiano. Considere el siguiente ...
Página 1 de 2