Как получить детали слова из TF Vector RDD в Spark ML Lib?
Я создал Term Frequency, используяHashingTF
в искре. Я получил термин частоты, используяtf.transform
за каждое слово.
Но результаты показывают в этом формате.
[<hashIndexofHashBucketofWord1>,<hashIndexofHashBucketofWord2> ...]
,[termFrequencyofWord1, termFrequencyOfWord2 ....]
например:
(1048576,[105,3116],[1.0,2.0])
Я могу получить индекс в хэш-ведро, используяtf.indexOf("word")
.
Но как я могу получить слово, используя индекс?