Large Pandas Dataframe Parallelverarbeitung
Ich greife auf einen sehr großen Pandas-Datenrahmen als globale Variable zu. Auf diese Variable wird parallel über @ zugegriff joblib.
Z.B
df = db.query("select id, a_lot_of_data from table")
def process(id):
temp_df = df.loc[id]
temp_df.apply(another_function)
Parallel(n_jobs=8)(delayed(process)(id) for id in df['id'].to_list())
Auf diese Weise auf den ursprünglichen df zuzugreifen, scheint die Daten prozessübergreifend zu kopieren. Dies ist unerwartet, da der ursprüngliche df in keinem der Unterprozesse geändert wird. (oder ist es?