Resultados de la búsqueda a petición "tf-idf"

6 la respuesta

Python: tf-idf-cosine: para encontrar la similitud de documentos

Estaba siguiendo un tutorial que estaba disponible enParte 1 & Parte 2. Desafortunadamente, el autor no tuvo tiempo para la sección final, que involucró ...

3 la respuesta

Implementaciones de TF-IDF en python

¿Cuáles son las implementaciones / api estándar de tf-idf disponibles en python? Me he encontrado con el de nltk. Quiero saber las otras bibliotecas que prop...

3 la respuesta

¿Puedo usar CountVectorizer en scikit-learn para contar la frecuencia de documentos que no se usaron para extraer los tokens?

He estado trabajando con elCountVectorizer clase en scikit-learn. Entiendo que si se usa de la manera que se muestra a continuación, el resultado final consistirá en una matriz que contiene recuentos de características o tokens. Estos tokens se ...

1 la respuesta

Obtenga el nombre del documento en la matriz scikit-learn tf-idf

He creado una matriz tf-idf pero ahora quiero recuperar las 2 palabras principales para cada documento. Quiero pasar la identificación del documento y debería darme las 2 palabras principales. En este momento, tengo estos datos de muestra: from ...

1 la respuesta

Cálculo de tf-idf entre documentos usando python 2.7

Tengo un escenario en el que recuperé información / datos sin procesar de Internet y los coloqué en sus respectivos archivos json o .txt. A partir de ahí, me gustaría calcular las frecuencias de cada término en cada documento y su similitud de ...

1 la respuesta

acerca de la similitud de coseno

Estoy encontrando similitud de coseno entre documentos ... Lo hice así D1 = (8,0,0,1) donde 8,0,0,1 son las puntuaciones tf-idf de los términos t1, t2, t3, t4 D2 = (7,0,0,1) cos (theta) = (56 + 0 + 0 + 1) / sqrt (64 + 49) sqrt (1 +1) que ...

2 la respuesta

TypeError: debe ser str, no list

el problema es el resultado de salida no se guarda en el archivo csv. Estoy usando este código para ponderar las palabras positivas y negativas. Quiero guardar en el archivo csv. Primero, lea el archivo csv, aplique tf-idf y muestre la salida en ...

3 la respuesta

Coseno Similitud de vectores de diferentes longitudes?

Estoy tratando de usar TF-IDF [https://stackoverflow.com/questions/3113428/classifying-documents-into-categories/3114191#3114191] para ordenar documentos en categorías. He calculado el tf_idf para algunos documentos, pero ahora, cuando trato de ...

1 la respuesta

¿Cómo utilizar el clasificador de chispas Naive Bayes para la clasificación de texto con IDF?

Quiero convertir documentos de texto en vectores de características usando tf-idf, y luego entrenar un algoritmo ingenuo de bayes para clasificarlos. Puedo cargar fácilmente mis archivos de texto sin las etiquetas y usar HashingTF () para ...

1 la respuesta

¿Cómo obtener detalles de palabras de TF Vector RDD en Spark ML Lib?

He creado la frecuencia de término usandoHashingTF en chispa Tengo el término frecuencias usandotf.transform por cada palabra Pero los resultados se muestran en este formato. [<hashIndexofHashBucketofWord1>,<hashIndexofHashBucketofWord2> ...