Как рассчитать пороговое значение для числовых атрибутов в алгоритме Quinlan C4.5?

Я пытаюсь найти, как алгоритм C4.5 определяет пороговое значение для числовых атрибутов. Я исследовал и не могу понять, в большинстве мест ямы нашли эту информацию:

Учебные образцы сначала сортируются по значениям рассматриваемого атрибута Y. Существует только конечное число этих значений, поэтому давайте обозначим их в отсортированном порядке как {v1, v2,…, Ут}. Любое пороговое значение, лежащее между vi и vi + 1, будет иметь тот же эффект, что и деление дел на случаи, значения атрибута Y которых лежат в {v1, v2,…, vi} и те, чье значение находится в {vi + 1, vi + 2,…В.М. Таким образом, существует только m-1 возможных расщеплений на Y, и все они должны систематически проверяться для получения оптимального расщепления.

Обычно выбирают среднюю точку каждого интервала: (vi + vi + 1) / 2 в качестве репрезентативного порога. C4.5 выбирает в качестве порога меньшее значение vi для каждого интервала {vi, vi + 1}, а не саму среднюю точку.

Я изучаю пример Play / Dont Play (таблица значений) и не понимаю, как вы получаете номер 75 (генерируется дерево) для атрибута влажность, когда состояние солнечное, потому что значениявлажности до солнечного состояния {70,85,90,95}.

Кто-нибудь знает?

Ответы на вопрос(2)

Ваш ответ на вопрос