Как преобразовать категориальную переменную в Spark в набор столбцов, закодированных как {0,1}?
Я пытаюсь выполнить логистическую регрессию (LogisticRegressionWithLBFGS) с помощью Spark MLlib (с Scala) для набора данных, который содержит категориальные переменные. Я обнаружил, что Spark не смог работать с такими переменными.
В R существует простой способ решения такой проблемы: я преобразую переменную в фактор (категории), поэтому R создает набор столбцов, закодированных как {0,1} индикаторных переменных.
Как я могу выполнить это с Spark?