Параллельная обработка больших данных Pandas Dataframe

Я обращаюсь к очень большому массиву данных Pandas в качестве глобальной переменной. Эта переменная доступна параллельно черезjoblib.

Например.

df = db.query("select id, a_lot_of_data from table")

def process(id):
    temp_df = df.loc[id]
    temp_df.apply(another_function)

Parallel(n_jobs=8)(delayed(process)(id) for id in df['id'].to_list())

Такой доступ к оригинальному df, похоже, копирует данные между процессами. Это неожиданно, так как исходный df не изменяется ни в одном из подпроцессов? (либо это?)

Ответы на вопрос(2)

Ваш ответ на вопрос