Создание бинарных гистограмм в Spark

Question

Dec 29, 2015, 07:18 AM

histogram pyspark pandas apache-spark python

Создание бинарных гистограмм в Spark

Предположим, у меня есть фрейм данных (df) (Pandas) или RDD (Spark) со следующими двумя столбцами:

timestamp, data
12345.0    10 
12346.0    12

В Pandas я могу довольно легко создать гистограмму с разными длинами. Например, чтобы создать гистограмму за 1 час, я делаю следующее:

df =  df[ ['timestamp', 'data'] ].set_index('timestamp')
df.resample('1H',how=sum).dropna()

Переход на Pandas df из Spark RDD довольно дорог для меня (учитывая набор данных). Следовательно, я предпочитаю оставаться в домене Spark в максимально возможной степени.

Есть ли способ сделать эквивалент в Spark RDD или во фреймах данных?

Создание бинарных гистограмм в Spark

Ответы на вопрос(2)

Ваш ответ на вопрос

Популярные вопросы

Вы очень активны! Это здорово!

Создание бинарных гистограмм в Spark

Ответы на вопрос(2)

Ваш ответ на вопрос

Популярные вопросы