Resultados de la búsqueda a petición "text-mining"

1 la respuesta

Minería de texto en R | gestión de la memoria

Estoy usando un archivo de texto de 160 MB y haciendo minería de datos, pero parece que una vez que lo convierto a matriz para conocer la frecuencia de las palabras, entonces demanda demasiada memoria, ¿alguien puede ayudarme en esto? > dtm <- ...

1 la respuesta

Python Regex - Extrae texto entre (múltiples) expresiones en un archivo de texto

Soy un principiante de Python y estaría muy agradecido si pudiera ayudarme con mi problema de extracción de texto. Quiero extraer todo el texto, que se encuentra entre dos expresiones en un archivo de texto (el principio y el final de una ...

2 la respuesta

¿Cómo busco un patrón dentro de un archivo de texto usando Python combinando las operaciones de expresiones regulares y cadenas / archivos y almacenando instancias del patrón?

Básicamente, estoy buscando un código de 4 dígitos dentro de dos corchetes angulares dentro de un archivo de texto. Sé que necesito abrir el archivo de texto...

2 la respuesta

Emoticonos en Twitter Sentiment Analysis en r

¿Cómo manejo / elimino los emoticones para poder ordenar los tweets para el análisis de sentimientos?Obteniendo: Error en sort.list (y): entrada inválidaGrac...

2 la respuesta

Minería de texto con el paquete tm - palabra derivada

Estoy haciendo un poco de minería de texto en R con el

2 la respuesta

Cómo recrear el mismo DocumentTermMatrix con datos nuevos (de prueba)

2 la respuesta

¿Los archivos PDF de texto-mina con Python?

¿Hay un paquete / biblioteca para python que me permita abrir un PDF y buscar en el texto ciertas palabras?

2 la respuesta

Usa R para convertir archivos PDF en archivos de texto para minería de texto

Tengo cerca de mil artículos de revistas pdf en una carpeta. Necesito enviar un mensaje de texto en los resúmenes de todos los artículos de toda la carpeta. ...

2 la respuesta

Eliminar palabras demasiado comunes (aparecen en más del 80% de los documentos) en R

Estoy trabajando con el paquete 'tm' para crear un corpus. He realizado la mayoría de los pasos de preprocesamiento. Lo que resta es eliminar palabras demasiado comunes (términos que aparecen en más del 80% de los documentos). ¿Puede alguien ...

2 la respuesta

Extracción NGram eficiente de CPU y memoria con R

Escribí un algoritmo que extrae NGrams (bigrams, trigrams, ... hasta 5 gramos) de una lista de 50000 direcciones. Mi objetivo es tener para cada dirección un vector booleano que represente si los NGrams están presentes o no en la dirección. Por ...