Resultados de la búsqueda a petición "text-mining"

1 la respuesta

Python Regex - Extrae texto entre (múltiples) expresiones en un archivo de texto

Soy un principiante de Python y estaría muy agradecido si pudiera ayudarme con mi problema de extracción de texto. Quiero extraer todo el texto, que se encuentra entre dos expresiones en un archivo de texto (el principio y el final de una ...

1 la respuesta

Minería de texto en R | gestión de la memoria

Estoy usando un archivo de texto de 160 MB y haciendo minería de datos, pero parece que una vez que lo convierto a matriz para conocer la frecuencia de las palabras, entonces demanda demasiada memoria, ¿alguien puede ayudarme en esto? > dtm <- ...

2 la respuesta

Error al extraer frases usando Gensim

Estoy tratando de obtener los bigrams en las oraciones usando frases en Gensim de la siguiente manera. from gensim.models import Phrases from gensim.models.phrases import Phraser documents = ["the mayor of new york was there", "machine learning ...

0 la respuesta

Comportamiento inconsistente con las funciones de transformación tm_map cuando se usan múltiples núcleos

Otro título potencial para esta publicación podría ser "Cuando se procesa en paralelo en r, ¿importa la relación entre el número de núcleos, el tamaño del fragmento de bucle y el tamaño del objeto?" Tengo un corpus en el que estoy ejecutando ...

2 la respuesta

Reconocer tabla PDF usando R

Estoy tratando de extraer datos de tablas dentro de algunos informes en pdf. He visto algunos ejemplos usando pdftools y paquetes similares. Tuve éxito en obtener el texto, sin embargo, solo quiero extraer las tablas. ¿Hay alguna manera de usar ...

1 la respuesta

Agrupación de texto usando Scipy Hierarchy Clustering en Python

Tengo un corpus de texto que contiene más de 1000 artículos cada uno en una línea separada. Estoy tratando de usar Hierarchy Clustering usando Scipy en python para producir grupos de artículos relacionados. Este es el código que usé para hacer el ...

2 la respuesta

Doc2Vec Sentence Clustering

Tengo múltiples documentos que contienen múltiples oraciones. Quiero usardoc2vec agrupar (por ejemplo, k-medias) los vectores de oración usandosklearn. Como tal, la idea es que oraciones similares se agrupan en varios grupos. Sin embargo, no me ...

1 la respuesta

¿Por qué dos vectores no es similitud pero el resultado es 1?

Estoy usando la fórmula de similitud de coseno para calcular la similitud entre dos vectores. Probé dos vectores diferentes como este: Vector1 (-1237373741, 27, 1, 1, 331289590, 1818540802) Vector2 (-1237373741, 49, 1, 1, 331289590, ...

2 la respuesta

marco de datos de tfidf con python

Tengo que clasificar algunos sentimientos, mi marco de datos es así Phrase Sentiment is it good movie positive wooow is it very goode positive bad movie negativehice un preprocesamiento como tokenización para detener las palabras derivadas, etc. ...

1 la respuesta

Cómo dividir los datos de la conversación en pares de (Contexto, Respuesta)

Estoy usando el modelo Gensim Doc2Vec, tratando de agrupar partes de las conversaciones de atención al cliente. Mi objetivo es dar al equipo de soporte una sugerencia de respuesta automática. Figura 1:muestra un ejemplo de conversaciones donde ...