apache spark MLLib: Wie erstelle ich beschriftete Punkte für Zeichenketten-Features?
ch versuche, mit Spark's MLLib einen NaiveBayes-Klassifikator zu erstellen, der eine Reihe von Dokumenten als Eingabe verwende
Ich möchte einige Dinge als Features definieren (d. H. Autoren, explizite Tags, implizite Schlüsselwörter, Kategorie), aber auf @ schauedie Dokumentatio es scheint, dass einLabeledPoint
enthält nur doppelte Werte, d. h. es sieht aus wieLabeledPoint[Double, List[Pair[Double,Double]]
.
Anstelle dessen, was ich als Ausgabe aus dem Rest meines Codes habe, wäre so etwas wieLabeledPoint[Double, List[Pair[String,Double]]
.
Ich könnte meine eigene Bekehrung erfinden, aber es scheint seltsam. Wie soll ich mit MLLib umgehen?
Ich glaube, die Antwort ist in derHashingTF
class (d. h. Hashing-Funktionen), aber ich verstehe nicht, wie das funktioniert. Es scheint, dass es eine Art Kapazitätswert erfordert, aber meine Liste von Schlüsselwörtern und Themen ist praktisch unbegrenzt (oder besser, am Anfang unbekannt).