¿Cómo se calcula la frecuencia de término en TfidfVectorizer?

Question

Feb 24, 2017, 03:03 PM

¿Cómo se calcula la frecuencia de término en TfidfVectorizer?

Busqué mucho para entender esto, pero no puedo. Entiendo que, por defecto, se aplicará TfidfVectorizerl2 normalización en frecuencia de término.Esta El artículo explica la ecuación de la misma. Estoy usando TfidfVectorizer en mi texto escrito en idioma gujarati. A continuación se detallan los resultados al respecto:

Mis dos documentos son:

ખુબ વખાણ કરે છે

ખુબ વધારે છે

El código que estoy usando es:

vectorizer = TfidfVectorizer(tokenizer=tokenize_words, sublinear_tf=True, use_idf=True, smooth_idf=False)

Aquí,tokenize_words es mi función para tokenizar palabras. La lista de TF-IDF de mis datos es:

[[ 0.6088451   0.35959372  0.35959372  0.6088451   0.        ]
 [ 0.          0.45329466  0.45329466  0.          0.76749457]]

La lista de características:

['કરે', 'ખુબ', 'છે.', 'વખાણ', 'વધારે']

El valor de idf:

{'વખાણ': 1.6931471805599454, 'છે.': 1.0, 'કરે': 1.6931471805599454, 'વધારે': 1.6931471805599454, 'ખુબ': 1.0}

Explíqueme en este ejemplo cuál será la frecuencia de cada término en mis dos documentos.

Respuestas a la pregunta(0)

Preguntas populares

0 la respuesta

dagger soporte de Android para androidx.fragment

0 la respuesta

Hibernate Class Cast Exception

0 la respuesta

¿Hay alguna manera de hacer que el paralaje funcione dentro de un DIV?

0 la respuesta

Hacer una imagen sensible - la forma más sencilla [duplicar]

0 la respuesta

Fluent NHibernate: asignación de una propiedad a una columna en una tabla unida

¡Eres muy activo! ¡Es genial!

¿Cómo se calcula la frecuencia de término en TfidfVectorizer?

Respuestas a la pregunta(0)

Su respuesta a la pregunta

Preguntas populares