apache spark MLLib: как построить помеченные точки для строковых объектов?
Я пытаюсь построить классификатор NaiveBayes с MLLib Spark, который принимает в качестве входных данных набор документов.
Я хотел бы поместить некоторые вещи как функции (то есть авторов, явные теги, неявные ключевые слова, категории), но глядя надокументация кажется, чтоLabeledPoint
содержит только двойники, т.е.LabeledPoint[Double, List[Pair[Double,Double]]
.
Вместо этого то, что я имею в качестве вывода из остальной части моего кода, будет что-то вродеLabeledPoint[Double, List[Pair[String,Double]]
.
Я мог бы сделать свое собственное обращение, но это кажется странным. Как я должен справиться с этим с помощью MLLib?
Я считаю, что ответ вHashingTF
класс (то есть функции хеширования), но я не понимаю, как это работает, кажется, что он принимает какое-то значение емкости, но мой список ключевых слов и тем фактически неограничен (или, лучше сказать, неизвестен в начале).