Large Pandas Dataframe Parallelverarbeitung

Question

Nov 09, 2015, 04:50 PM

Large Pandas Dataframe Parallelverarbeitung

Ich greife auf einen sehr großen Pandas-Datenrahmen als globale Variable zu. Auf diese Variable wird parallel über @ zugegriff joblib.

Z.B

df = db.query("select id, a_lot_of_data from table")

def process(id):
    temp_df = df.loc[id]
    temp_df.apply(another_function)

Parallel(n_jobs=8)(delayed(process)(id) for id in df['id'].to_list())

Auf diese Weise auf den ursprünglichen df zuzugreifen, scheint die Daten prozessübergreifend zu kopieren. Dies ist unerwartet, da der ursprüngliche df in keinem der Unterprozesse geändert wird. (oder ist es?