Resultados de la búsqueda a petición "text-mining"

5 la respuesta

tm: lea en el marco de datos, mantenga identificaciones de texto, construya DTM y únase a otro conjunto de datos

Estoy usando el paquete tm. Digo que tengo un marco de datos de 2 columnas, 500 filas. La primera columna es ID que se genera aleatoriamente y tiene tanto el carácter como el número: "txF87uyK" La segunda columna es texto real: "El clima de hoy ...

6 la respuesta

lista de frecuencias de palabras usando R

6 la respuesta

¿Cómo leer solo líneas en un archivo de texto después de cierta cadena usando Python?

Con Python, me gustaría leer en un diccionario todas las líneas en un archivo de texto que vienen después de una cadena en particular. Me gustaría hacer esto en miles de archivos de texto. Puedo identificar e imprimir la cadena particular ...

6 la respuesta

R Expresión regular Lookbehind

Tengo un vector lleno de cadenas del siguiente formato:<year1><year2><id1><id2> las primeras entradas del vector se ven así: 199719982001 199719982002 199719982003 199719982003 Para la primera entrada tenemos: año1 = 1997, año2 = 1998, id1 = ...

8 la respuesta

Contar sílabas

Estoy buscando asignar algunos puntajes de legibilidad diferentes al texto en R, como el Flesh Kincaid. ¿Alguien sabe de una manera de segmentar palabras en sílabas usando R? No necesito necesariamente los segmentos de sílabas en sí, sino un ...

8 la respuesta

¿Qué kit de herramientas de PNL para usar en JAVA? [cerrado

Estoy trabajando en un proyecto que consiste en un sitio web que se conecta con el NCBI (Centro Nacional de Información Biotecnológica) y busca artículos allí. La cosa es que tengo que hacer un poco de minería de texto en todos los resultados. ...

11 la respuesta

¿Cómo determinar el lenguaje (natural) de un documento?

Tengo un conjunto de documentos en dos idiomas: inglés y alemán. No hay información meta utilizable sobre estos documentos, un programa puede ver el contenid...

14 la respuesta

Encontrar frases de 2 y 3 palabras con el paquete R TM

Estoy tratando de encontrar un código que realmente funcione para encontrar las frases de dos y tres palabras más utilizadas en el paquete de minería de texto R (tal vez haya otro paquete que no conozco). He estado tratando de usar el tokenizer, ...