apache spark MLLib: como construir pontos rotulados para recursos de string?

Question

Dec 06, 2014, 07:01 PM

apache-spark-mllib java machine-learning apache-spark feature-selection

apache spark MLLib: como construir pontos rotulados para recursos de string?

Estou tentando criar um classificador NaiveBayes com o MLLib do Spark, que usa como entrada um conjunto de documentos.

Gostaria de colocar algumas coisas como recursos (ou seja, autores, tags explícitas, palavras-chave implícitas, categoria), mas olhandoa documentação parece que umLabeledPoint contém apenas duplos, ou seja, pareceLabeledPoint[Double, List[Pair[Double,Double]].

Em vez disso, o que eu tenho como saída do resto do meu código seria algo comoLabeledPoint[Double, List[Pair[String,Double]].

Eu poderia inventar minha própria conversão, mas parece estranho. Como devo lidar com isso usando o MLLib?

Eu acredito que a resposta está noHashingTF classe (ou seja, recursos de hash), mas eu não entendo como isso funciona, parece que leva algum tipo de valor de capacidade, mas minha lista de palavras-chave e tópicos é efetivamente ilimitada (ou melhor, desconhecida no início).