Understanding min_df und max_df in scikit CountVectorizer

Question

Dec 30, 2014, 12:57 AM

scikit-learn nlp python machine-learning

Understanding min_df und max_df in scikit CountVectorizer

Ich habe fünf Textdateien, die ich in einen CountVectorizer eingebe. Was bedeutet die minimale / maximale Dokumenthäufigkeit genau, wenn Sie für die CountVectorizer-Instanz min_df und max_df angeben? Ist es die Häufigkeit eines Wortes in seiner jeweiligen Textdatei oder die Häufigkeit des Wortes im gesamten Korpus (5 txt-Dateien)?

Wie ist es anders, wenn min_df und max_df als Ganzzahlen oder als Gleitkommazahlen angegeben werden?

Die Dokumentation scheint weder eine ausführliche Erklärung noch ein Beispiel für die Verwendung von min_df und / oder max_df zu enthalten. Könnte jemand eine Erklärung oder ein Beispiel liefern, das min_df oder max_df demonstriert.