Создание бинарных гистограмм в Spark
Предположим, у меня есть фрейм данных (df) (Pandas) или RDD (Spark) со следующими двумя столбцами:
timestamp, data
12345.0 10
12346.0 12
В Pandas я могу довольно легко создать гистограмму с разными длинами. Например, чтобы создать гистограмму за 1 час, я делаю следующее:
df = df[ ['timestamp', 'data'] ].set_index('timestamp')
df.resample('1H',how=sum).dropna()
Переход на Pandas df из Spark RDD довольно дорог для меня (учитывая набор данных). Следовательно, я предпочитаю оставаться в домене Spark в максимально возможной степени.
Есть ли способ сделать эквивалент в Spark RDD или во фреймах данных?