Crear histogramas agrupados en Spark

Supongamos que tengo un marco de datos (df) (Pandas) o RDD (Spark) con las siguientes dos columnas:

timestamp, data
12345.0    10 
12346.0    12

En Pandas, puedo crear un histograma en bin de diferentes longitudes de bin con bastante facilidad. Por ejemplo, para crear un histograma durante 1 hora, hago lo siguiente:

df =  df[ ['timestamp', 'data'] ].set_index('timestamp')
df.resample('1H',how=sum).dropna()

Pasar a Pandas df desde Spark RDD es bastante costoso para mí (considerando el conjunto de datos). En consecuencia, prefiero permanecer en el dominio de Spark tanto como sea posible.

¿Hay alguna manera de hacer el equivalente en Spark RDD o dataframes?

Respuestas a la pregunta(2)

Su respuesta a la pregunta