Но в случае двоичной классификации с RandomForestClassifier, если конечный узел имеет более 1 выборки (datapoint), скажем, два, как принимается решение, к какому классу они принадлежат? класс 0 или класс 1? Их 2, мы не можем сказать, класс 1 или класс 2. Или я не прав?

ходил склеарн классDecisionTreeClassifier.

Глядя на параметры для класса, у нас есть два параметраmin_samples_split а такжеmin_samples_leaf, Основная идея, лежащая в их основе, выглядит аналогично, вы указываете минимальное количество выборок, необходимое для выбора узла, который будет лист или разделен дальше.

Зачем нам два параметра, когда один подразумевает другой? Есть ли какая-либо причина или сценарий, который их отличает?

 cardamom26 окт. 2017 г., 18:34
Здесь есть еще одно большое обсуждение, включая диаграммыgithub.com/scikit-learn/scikit-learn/issues/8399
 Hara Chaitanya29 сент. 2017 г., 17:30
@Abhishek, спасибо за ссылку. И Алекс, и ссылка помогли мне понять это сейчас.
 user850834729 сент. 2017 г., 12:47

Ответы на вопрос(1)

Решение Вопроса

Основное различие между ними состоит в том, чтоmin_samples_leaf гарантирует минимальное количество образцов в листе, аmin_samples_split может создать произвольные маленькие листья, хотяmin_samples_split чаще встречается в литературе.

Чтобы получить представление об этой части документации, я думаю, вы должны провести различие междулист (также называемыйвнешний узел) ивнутренний узел, Внутренний узел будет иметь дополнительные расщепления (также называемыедети), в то время как лист по определению является узлом без дочерних элементов (без дальнейшего разбиения).

min_samples_split указывает минимальное количество образцов, необходимое для разделениявнутренний узел, покаmin_samples_leaf указывает минимальное количество образцов, которое требуется длялист узел.

Например, еслиmin_samples_split = 5и на внутреннем узле 7 выборок, тогда разделение разрешено. Но давайте представим, что разделение приводит к двум листам, один с 1 сэмплом, а другой с 6 сэмплами. Еслиmin_samples_leaf = 2тогда разделение не будет разрешено (даже если на внутреннем узле 7 выборок), поскольку на одном из полученных листьев будет меньше минимального количества выборок, которое требуется на листовом узле.

Как указано в документации, упомянутой выше,min_samples_leaf гарантирует минимальное количество образцов на каждом листе, независимо от значенияmin_samples_split.

 ZelelB30 нояб. 2018 г., 16:24
Но в случае двоичной классификации с RandomForestClassifier, если конечный узел имеет более 1 выборки (datapoint), скажем, два, как принимается решение, к какому классу они принадлежат? класс 0 или класс 1? Их 2, мы не можем сказать, класс 1 или класс 2. Или я не прав?
 Hara Chaitanya29 сент. 2017 г., 17:31
Спасибо @Alex. Я понял теперь. min_samples_split не гарантирует минимальных выборок в листовом узле, но min_samples_leaf будет.

Ваш ответ на вопрос