Crear histogramas agrupados en Spark

Question

Dec 29, 2015, 07:18 AM

python apache-spark pandas histogram pyspark

Crear histogramas agrupados en Spark

Supongamos que tengo un marco de datos (df) (Pandas) o RDD (Spark) con las siguientes dos columnas:

timestamp, data
12345.0    10 
12346.0    12

En Pandas, puedo crear un histograma en bin de diferentes longitudes de bin con bastante facilidad. Por ejemplo, para crear un histograma durante 1 hora, hago lo siguiente:

df =  df[ ['timestamp', 'data'] ].set_index('timestamp')
df.resample('1H',how=sum).dropna()

Pasar a Pandas df desde Spark RDD es bastante costoso para mí (considerando el conjunto de datos). En consecuencia, prefiero permanecer en el dominio de Spark tanto como sea posible.

¿Hay alguna manera de hacer el equivalente en Spark RDD o dataframes?