Resultados de la búsqueda a petición "tf-idf"

3 la respuesta

¿Puedo usar CountVectorizer en scikit-learn para contar la frecuencia de documentos que no se usaron para extraer los tokens?

He estado trabajando con elCountVectorizer clase en scikit-learn. Entiendo que si se usa de la manera que se muestra a continuación, el resultado final consistirá en una matriz que contiene recuentos de características o tokens. Estos tokens se ...

1 la respuesta

La función tfidf.transform () no devuelve los valores correctos

Estoy tratando de ajustar el vectorizador tfidf en un determinado corpus de texto y luego usar el mismo vectorizador para encontrar la suma de los valores tfidf del nuevo texto. Sin embargo, los valores suma no son los esperados. A continuación ...

2 la respuesta

¿Qué significa incrustar una palabra ponderada?

En elpapel [http://www.aclweb.org/anthology/S17-2100]que estoy tratando de implementar, dice: En este trabajo, los tweets se modelaron utilizando tres tipos de representación de texto. El primero es un modelo de bolsa de palabras ponderado por ...

1 la respuesta

Obtenga el nombre del documento en la matriz scikit-learn tf-idf

He creado una matriz tf-idf pero ahora quiero recuperar las 2 palabras principales para cada documento. Quiero pasar la identificación del documento y debería darme las 2 palabras principales. En este momento, tengo estos datos de muestra: from ...

1 la respuesta

Cálculo de tf-idf entre documentos usando python 2.7

Tengo un escenario en el que recuperé información / datos sin procesar de Internet y los coloqué en sus respectivos archivos json o .txt. A partir de ahí, me gustaría calcular las frecuencias de cada término en cada documento y su similitud de ...

1 la respuesta

acerca de la similitud de coseno

Estoy encontrando similitud de coseno entre documentos ... Lo hice así D1 = (8,0,0,1) donde 8,0,0,1 son las puntuaciones tf-idf de los términos t1, t2, t3, t4 D2 = (7,0,0,1) cos (theta) = (56 + 0 + 0 + 1) / sqrt (64 + 49) sqrt (1 +1) que ...

2 la respuesta

TypeError: debe ser str, no list

el problema es el resultado de salida no se guarda en el archivo csv. Estoy usando este código para ponderar las palabras positivas y negativas. Quiero guardar en el archivo csv. Primero, lea el archivo csv, aplique tf-idf y muestre la salida en ...

3 la respuesta

Coseno Similitud de vectores de diferentes longitudes?

Estoy tratando de usar TF-IDF [https://stackoverflow.com/questions/3113428/classifying-documents-into-categories/3114191#3114191] para ordenar documentos en categorías. He calculado el tf_idf para algunos documentos, pero ahora, cuando trato de ...

1 la respuesta

¿Cómo utilizar el clasificador de chispas Naive Bayes para la clasificación de texto con IDF?

Quiero convertir documentos de texto en vectores de características usando tf-idf, y luego entrenar un algoritmo ingenuo de bayes para clasificarlos. Puedo cargar fácilmente mis archivos de texto sin las etiquetas y usar HashingTF () para ...

1 la respuesta

¿Cómo obtener detalles de palabras de TF Vector RDD en Spark ML Lib?

He creado la frecuencia de término usandoHashingTF en chispa Tengo el término frecuencias usandotf.transform por cada palabra Pero los resultados se muestran en este formato. [<hashIndexofHashBucketofWord1>,<hashIndexofHashBucketofWord2> ...