Как назначить уникальные смежные номера элементам в Spark RDD
У меня есть набор данных(user, product, review)
и хочу передать его в алгоритм ALS mllib.
Алгоритм требует, чтобы пользователи и продукты были числами, а мои - строковыми именами пользователей и строковыми SKU.
Прямо сейчас я получаю отдельных пользователей и SKU, а затем присваиваю им числовые идентификаторы за пределами Spark.
Мне было интересно, есть ли лучший способ сделать это. Один из подходов, о которых я подумал, - это написать собственный RDD, который по существу перечисляет от 1 доn
, затем вызовите zip на двух RDD.