apache spark MLLib: Wie erstelle ich beschriftete Punkte für Zeichenketten-Features?

ch versuche, mit Spark's MLLib einen NaiveBayes-Klassifikator zu erstellen, der eine Reihe von Dokumenten als Eingabe verwende

Ich möchte einige Dinge als Features definieren (d. H. Autoren, explizite Tags, implizite Schlüsselwörter, Kategorie), aber auf @ schauedie Dokumentatio es scheint, dass einLabeledPoint enthält nur doppelte Werte, d. h. es sieht aus wieLabeledPoint[Double, List[Pair[Double,Double]].

Anstelle dessen, was ich als Ausgabe aus dem Rest meines Codes habe, wäre so etwas wieLabeledPoint[Double, List[Pair[String,Double]].

Ich könnte meine eigene Bekehrung erfinden, aber es scheint seltsam. Wie soll ich mit MLLib umgehen?

Ich glaube, die Antwort ist in derHashingTF class (d. h. Hashing-Funktionen), aber ich verstehe nicht, wie das funktioniert. Es scheint, dass es eine Art Kapazitätswert erfordert, aber meine Liste von Schlüsselwörtern und Themen ist praktisch unbegrenzt (oder besser, am Anfang unbekannt).

Antworten auf die Frage(2)

Ihre Antwort auf die Frage