Как справиться с категориальными особенностями с помощью spark-ml?

Как обрабатывать категориальные данные с spark-ml и не spark-mllib ?

Хотя документация не очень ясна, кажется, что классификаторы, например,RandomForestClassifier, LogisticRegressionестьfeaturesCol аргумент, который указывает имя столбца объектов вDataFrameиlabelCol аргумент, который указывает имя столбца помеченных классов вDataFrame.

Очевидно, что я хочу использовать более чем одну функцию в моем прогнозе, поэтому я попытался использоватьVectorAssembler поместить все мои функции в один вектор подfeaturesCol.

Тем не менееVectorAssembler принимает только числовые типы, логический тип и векторный тип (согласно веб-сайту Spark), поэтому я не могу помещать строки в вектор объектов.

Как мне поступить?

Ответы на вопрос(4)

Ваш ответ на вопрос