Понимание min_df и max_df в scikit CountVectorizer
У меня есть пять текстовых файлов, которые я ввожу в CountVectorizer. При указании min_df и max_df для экземпляра CountVectorizer, что именно означает минимальная / максимальная частота документа? Это частота слова в его конкретном текстовом файле или частота слова во всем корпусе (5 текстовых файлов)?
Чем отличается min_df и max_df от целых чисел или от чисел с плавающей точкой?
Документация, по-видимому, не дает подробного объяснения и не предоставляет пример для демонстрации использования min_df и / или max_df. Может ли кто-нибудь предоставить объяснение или пример, демонстрирующий min_df или max_df.