apache spark MLLib: Wie erstelle ich beschriftete Punkte für Zeichenketten-Features?

Question

Dec 06, 2014, 07:01 PM

apache-spark-mllib apache-spark java feature-selection machine-learning

apache spark MLLib: Wie erstelle ich beschriftete Punkte für Zeichenketten-Features?

ch versuche, mit Spark's MLLib einen NaiveBayes-Klassifikator zu erstellen, der eine Reihe von Dokumenten als Eingabe verwende

Ich möchte einige Dinge als Features definieren (d. H. Autoren, explizite Tags, implizite Schlüsselwörter, Kategorie), aber auf @ schauedie Dokumentatio es scheint, dass einLabeledPoint enthält nur doppelte Werte, d. h. es sieht aus wieLabeledPoint[Double, List[Pair[Double,Double]].

Anstelle dessen, was ich als Ausgabe aus dem Rest meines Codes habe, wäre so etwas wieLabeledPoint[Double, List[Pair[String,Double]].

Ich könnte meine eigene Bekehrung erfinden, aber es scheint seltsam. Wie soll ich mit MLLib umgehen?

Ich glaube, die Antwort ist in derHashingTF class (d. h. Hashing-Funktionen), aber ich verstehe nicht, wie das funktioniert. Es scheint, dass es eine Art Kapazitätswert erfordert, aber meine Liste von Schlüsselwörtern und Themen ist praktisch unbegrenzt (oder besser, am Anfang unbekannt).