Как назначить уникальные смежные номера элементам в Spark RDD

У меня есть набор данных(user, product, review)и хочу передать его в алгоритм ALS mllib.

Алгоритм требует, чтобы пользователи и продукты были числами, а мои - строковыми именами пользователей и строковыми SKU.

Прямо сейчас я получаю отдельных пользователей и SKU, а затем присваиваю им числовые идентификаторы за пределами Spark.

Мне было интересно, есть ли лучший способ сделать это. Один из подходов, о которых я подумал, - это написать собственный RDD, который по существу перечисляет от 1 доn, затем вызовите zip на двух RDD.

Ответы на вопрос(5)

Ваш ответ на вопрос