Resultados de la búsqueda a petición "text-mining"

2 la respuesta

Usa R para convertir archivos PDF en archivos de texto para minería de texto

Tengo cerca de mil artículos de revistas pdf en una carpeta. Necesito enviar un mensaje de texto en los resúmenes de todos los artículos de toda la carpeta. ...

1 la respuesta

R Tidytext y unnest_tokens error

Muy nuevo en R y he comenzado a usar el paquete tidytext. Estoy tratando de usar argumentos para alimentar elunnest_tokens funciono para poder hacer análisis de múltiples columnas. Entonces, en lugar de esto library(janeaustenr) ...

1 la respuesta

Cómo dividir los datos de la conversación en pares de (Contexto, Respuesta)

Estoy usando el modelo Gensim Doc2Vec, tratando de agrupar partes de las conversaciones de atención al cliente. Mi objetivo es dar al equipo de soporte una sugerencia de respuesta automática. Figura 1:muestra un ejemplo de conversaciones donde ...

2 la respuesta

marco de datos de tfidf con python

Tengo que clasificar algunos sentimientos, mi marco de datos es así Phrase Sentiment is it good movie positive wooow is it very goode positive bad movie negativehice un preprocesamiento como tokenización para detener las palabras derivadas, etc. ...

2 la respuesta

Reconocer tabla PDF usando R

Estoy tratando de extraer datos de tablas dentro de algunos informes en pdf. He visto algunos ejemplos usando pdftools y paquetes similares. Tuve éxito en obtener el texto, sin embargo, solo quiero extraer las tablas. ¿Hay alguna manera de usar ...

2 la respuesta

Doc2Vec Sentence Clustering

Tengo múltiples documentos que contienen múltiples oraciones. Quiero usardoc2vec agrupar (por ejemplo, k-medias) los vectores de oración usandosklearn. Como tal, la idea es que oraciones similares se agrupan en varios grupos. Sin embargo, no me ...

0 la respuesta

Comportamiento inconsistente con las funciones de transformación tm_map cuando se usan múltiples núcleos

Otro título potencial para esta publicación podría ser "Cuando se procesa en paralelo en r, ¿importa la relación entre el número de núcleos, el tamaño del fragmento de bucle y el tamaño del objeto?" Tengo un corpus en el que estoy ejecutando ...

2 la respuesta

Error al extraer frases usando Gensim

Estoy tratando de obtener los bigrams en las oraciones usando frases en Gensim de la siguiente manera. from gensim.models import Phrases from gensim.models.phrases import Phraser documents = ["the mayor of new york was there", "machine learning ...

3 la respuesta

Suma de filas para matriz de documentos a largo plazo / simple_triplet_matrix ?? {paquete tm}

Entonces tengo una matriz de documentos a término muy grande: > class(ph.DTM) [1] "TermDocumentMatrix" "simple_triplet_matrix" > ph.DTM A term-document matrix (109996 terms, 262811 documents) Non-/sparse entries: 3705693/28904453063 Sparsity : ...

1 la respuesta

Agrupación de texto usando Scipy Hierarchy Clustering en Python

Tengo un corpus de texto que contiene más de 1000 artículos cada uno en una línea separada. Estoy tratando de usar Hierarchy Clustering usando Scipy en python para producir grupos de artículos relacionados. Este es el código que usé para hacer el ...