¿Cómo se calcula la frecuencia de término en TfidfVectorizer?

Busqué mucho para entender esto, pero no puedo. Entiendo que, por defecto, se aplicará TfidfVectorizerl2 normalización en frecuencia de término.Esta El artículo explica la ecuación de la misma. Estoy usando TfidfVectorizer en mi texto escrito en idioma gujarati. A continuación se detallan los resultados al respecto:

Mis dos documentos son:

ખુબ વખાણ કરે છે

ખુબ વધારે છે

El código que estoy usando es:

vectorizer = TfidfVectorizer(tokenizer=tokenize_words, sublinear_tf=True, use_idf=True, smooth_idf=False)

Aquí,tokenize_words es mi función para tokenizar palabras. La lista de TF-IDF de mis datos es:

[[ 0.6088451   0.35959372  0.35959372  0.6088451   0.        ]
 [ 0.          0.45329466  0.45329466  0.          0.76749457]]

La lista de características:

['કરે', 'ખુબ', 'છે.', 'વખાણ', 'વધારે']

El valor de idf:

{'વખાણ': 1.6931471805599454, 'છે.': 1.0, 'કરે': 1.6931471805599454, 'વધારે': 1.6931471805599454, 'ખુબ': 1.0}

Explíqueme en este ejemplo cuál será la frecuencia de cada término en mis dos documentos.

Respuestas a la pregunta(0)

Su respuesta a la pregunta