¿Cómo manejar características categóricas con spark-ml?
¿Cómo manejo datos categóricos con spark-ml
y no spark-mllib
?
Si bien la documentación no es muy clara, parece que los clasificadores, p.RandomForestClassifier
, LogisticRegression
, tener unfeaturesCol
argumento, que especifica el nombre de la columna de características en elDataFrame
y unlabelCol
argumento, que especifica el nombre de la columna de clases etiquetadas en elDataFrame
.
Obviamente quiero usar más de una función en mi predicción, así que intenté usar elVectorAssembler
para poner todas mis características en un solo vector bajofeaturesCol
.
sin embargo, elVectorAssembler
solo acepta tipos numéricos, tipo booleano y tipo de vector (según el sitio web de Spark), por lo que no puedo poner cadenas en mi vector de características.
¿Cómo debo proceder?