apache spark MLLib: ¿cómo construir puntos etiquetados para características de cadena?

Question

Dec 06, 2014, 07:01 PM

java machine-learning apache-spark-mllib feature-selection apache-spark

apache spark MLLib: ¿cómo construir puntos etiquetados para características de cadena?

Estoy tratando de construir un clasificador NaiveBayes con MLLib de Spark que toma como entrada un conjunto de documentos.

Me gustaría poner algunas cosas como características (es decir, autores, etiquetas explícitas, palabras clave implícitas, categoría), pero mirandola documentación parece que unLabeledPoint contiene solo dobles, es decir, pareceLabeledPoint[Double, List[Pair[Double,Double]].

En cambio, lo que tengo como salida del resto de mi código sería algo así comoLabeledPoint[Double, List[Pair[String,Double]].

Podría hacer mi propia conversión, pero parece extraño. ¿Cómo se supone que debo manejar esto usando MLLib?

Creo que la respuesta está en elHashingTF clase (es decir, funciones de hashing), pero no entiendo cómo funciona, parece que se necesita algún tipo de valor de capacidad, pero mi lista de palabras clave y temas no tiene límites (o mejor, se desconoce al principio).