apache spark MLLib: как построить помеченные точки для строковых объектов?

Я пытаюсь построить классификатор NaiveBayes с MLLib Spark, который принимает в качестве входных данных набор документов.

Я хотел бы поместить некоторые вещи как функции (то есть авторов, явные теги, неявные ключевые слова, категории), но глядя надокументация кажется, чтоLabeledPoint содержит только двойники, т.е.LabeledPoint[Double, List[Pair[Double,Double]].

Вместо этого то, что я имею в качестве вывода из остальной части моего кода, будет что-то вродеLabeledPoint[Double, List[Pair[String,Double]].

Я мог бы сделать свое собственное обращение, но это кажется странным. Как я должен справиться с этим с помощью MLLib?

Я считаю, что ответ вHashingTF класс (то есть функции хеширования), но я не понимаю, как это работает, кажется, что он принимает какое-то значение емкости, но мой список ключевых слов и тем фактически неограничен (или, лучше сказать, неизвестен в начале).

Ответы на вопрос(1)

Ваш ответ на вопрос