Large Pandas Dataframe Parallelverarbeitung

Ich greife auf einen sehr großen Pandas-Datenrahmen als globale Variable zu. Auf diese Variable wird parallel über @ zugegriff joblib.

Z.B

df = db.query("select id, a_lot_of_data from table")

def process(id):
    temp_df = df.loc[id]
    temp_df.apply(another_function)

Parallel(n_jobs=8)(delayed(process)(id) for id in df['id'].to_list())

Auf diese Weise auf den ursprünglichen df zuzugreifen, scheint die Daten prozessübergreifend zu kopieren. Dies ist unerwartet, da der ursprüngliche df in keinem der Unterprozesse geändert wird. (oder ist es?

Antworten auf die Frage(4)

Ihre Antwort auf die Frage