«Соответствующие пропорции метки 1» совпадают с частотой метки? Поэтому я запутался в целесообразности использования StringInder для DecisionTree в Spark.

аюсь построить дерево решений и классификатор случайных лесов на основе маркетинговых данных банка UCI ->https://archive.ics.uci.edu/ml/datasets/bank+marketing, В наборе данных есть много категориальных функций (имеющих строковые значения).

В документе spark ml упоминается, что категориальные переменные могут быть преобразованы в числовые путем индексации с помощью StringIndexer или VectorIndexer. Я решил использовать StringIndexer (для векторного индекса требуется векторный объект и векторный ассемблер, который для преобразования объектов в векторный объект принимает только числовой тип). Используя этот подход, каждому уровню категориального объекта будет присвоено числовое значение в зависимости от его частоты (0 для наиболее частой метки элемента категории).

Мой вопрос заключается в том, как алгоритм Random Forest или Decision Tree будет понимать, что новые функции (основанные на категориальных признаках) отличаются от непрерывных переменных. Будет ли индексированная особенность считаться непрерывной в алгоритме? Это правильный подход? Или я должен продолжить с One-Hot-Encoding для категориальных функций.

Я прочитал некоторые ответы на этом форуме, но я не получил ясности в последней части.

Ответы на вопрос(1)

Ваш ответ на вопрос