Параллельная обработка больших данных Pandas Dataframe

Question

Nov 09, 2015, 04:50 PM

Параллельная обработка больших данных Pandas Dataframe

Я обращаюсь к очень большому массиву данных Pandas в качестве глобальной переменной. Эта переменная доступна параллельно черезjoblib.

Например.

df = db.query("select id, a_lot_of_data from table")

def process(id):
    temp_df = df.loc[id]
    temp_df.apply(another_function)

Parallel(n_jobs=8)(delayed(process)(id) for id in df['id'].to_list())

Такой доступ к оригинальному df, похоже, копирует данные между процессами. Это неожиданно, так как исходный df не изменяется ни в одном из подпроцессов? (либо это?)

Параллельная обработка больших данных Pandas Dataframe

Ответы на вопрос(2)

Ваш ответ на вопрос

Популярные вопросы

Вы очень активны! Это здорово!

Параллельная обработка больших данных Pandas Dataframe

Ответы на вопрос(2)

Ваш ответ на вопрос

Популярные вопросы