¿Cómo manejar características categóricas con spark-ml?

Question

Aug 28, 2015, 08:28 PM

categorical-data apache-spark apache-spark-mllib apache-spark-ml

¿Cómo manejar características categóricas con spark-ml?

¿Cómo manejo datos categóricos con spark-ml y no spark-mllib ?

Si bien la documentación no es muy clara, parece que los clasificadores, p.RandomForestClassifier, LogisticRegression, tener unfeaturesCol argumento, que especifica el nombre de la columna de características en elDataFramey unlabelCol argumento, que especifica el nombre de la columna de clases etiquetadas en elDataFrame.

Obviamente quiero usar más de una función en mi predicción, así que intenté usar elVectorAssembler para poner todas mis características en un solo vector bajofeaturesCol.

sin embargo, elVectorAssembler solo acepta tipos numéricos, tipo booleano y tipo de vector (según el sitio web de Spark), por lo que no puedo poner cadenas en mi vector de características.

¿Cómo debo proceder?