Compreendendo min_df e max_df no scikit CountVectorizer

Question

Dec 30, 2014, 12:57 AM

python nlp scikit-learn machine-learning

Compreendendo min_df e max_df no scikit CountVectorizer

Eu tenho cinco arquivos de texto inseridos em um CountVectorizer. Ao especificar min_df e max_df para a instância CountVectorizer, o que significa exatamente a frequência mínima / máxima do documento? É a frequência de uma palavra em seu arquivo de texto específico ou a frequência da palavra em todo o corpus geral (5 arquivos txt)?

Como é diferente quando min_df e max_df são fornecidos como números inteiros ou flutuantes?

A documentação não parece fornecer uma explicação completa nem fornece um exemplo para demonstrar o uso de min_df e / ou max_df. Alguém poderia fornecer uma explicação ou exemplo demonstrando min_df ou max_df.