Wskaźnik postępu podczas operacji pand (python)

Question

Sep 04, 2013, 01:55 AM

Wskaźnik postępu podczas operacji pand (python)

Regularnie wykonuję operacje pand na ramkach danych przekraczających 15 milionów wierszy i chciałbym mieć dostęp do wskaźnika postępu dla poszczególnych operacji.

Czy istnieje tekstowy wskaźnik postępu dla operacji pandas-split-apply-Combine?

Na przykład w czymś w rodzaju:

df_users.groupby(['userID', 'requestDate']).apply(feature_rollup)

gdziefeature_rollup jest nieco zaangażowaną funkcją, która pobiera wiele kolumn DF i tworzy nowe kolumny użytkownika za pomocą różnych metod. Operacje te mogą zająć trochę czasu w przypadku dużych ramek danych, więc chciałbym wiedzieć, czy możliwe jest posiadanie wyjścia tekstowego w notatniku iPython, który aktualizuje mnie w miarę postępu.

Do tej pory wypróbowałem wskaźniki postępu pętli kanonicznej dla Pythona, ale nie wchodzą one w interakcje z pandami w żaden znaczący sposób.

Mam nadzieję, że coś przeoczyłem w bibliotece / dokumentacji pand, która pozwala poznać postępy w łączeniu podzielonych aplikacji. Prosta implementacja może wyglądać na całkowitą liczbę podzbiorów ramek danych, na których znajduje sięapply funkcja działa i raportuje postęp jako zakończoną część tych podzbiorów.

Czy to może coś dodać do biblioteki?