Comprender el parámetro max_features en RandomForestRegressor

Question

May 29, 2014, 07:52 PM

Comprender el parámetro max_features en RandomForestRegressor

Mientras construimos cada árbol en el bosque aleatorio usando muestras bootstrapped, para cada nodo terminal, seleccionamos m variables al azar de p variables para encontrar la mejor división (p es el número total de características en sus datos). Mis preguntas (para RandomForestRegressor) son:

1) ¿A qué corresponde max_features (mop o algo más)?

2) ¿Se seleccionan m variables al azar de las variables max_features (cuál es el valor de m)?

3) Si max_features corresponde a m, ¿por qué querría establecerlo igual a p para la regresión (el valor predeterminado)? ¿Dónde está la aleatoriedad con esta configuración (es decir, en qué se diferencia del embolsado)?

Gracias.