Как справиться с категориальными особенностями с помощью spark-ml?
Как обрабатывать категориальные данные с spark-ml
и не spark-mllib
?
Хотя документация не очень ясна, кажется, что классификаторы, например,RandomForestClassifier
, LogisticRegression
естьfeaturesCol
аргумент, который указывает имя столбца объектов вDataFrame
иlabelCol
аргумент, который указывает имя столбца помеченных классов вDataFrame
.
Очевидно, что я хочу использовать более чем одну функцию в моем прогнозе, поэтому я попытался использоватьVectorAssembler
поместить все мои функции в один вектор подfeaturesCol
.
Тем не менееVectorAssembler
принимает только числовые типы, логический тип и векторный тип (согласно веб-сайту Spark), поэтому я не могу помещать строки в вектор объектов.
Как мне поступить?