Indicador de progresso durante operações de pandas (python)
Realizo regularmente operações de pandas em quadros de dados com mais de 15 milhões de linhas e adoraria ter acesso a um indicador de progresso para operações específicas.
Existe um indicador de progresso baseado em texto para operações de divisão-aplicação-combinação de pandas?
Por exemplo, em algo como:
df_users.groupby(['userID', 'requestDate']).apply(feature_rollup)
Ondefeature_rollup
é uma função um pouco envolvida que usa várias colunas DF e cria novas colunas de usuário por meio de vários métodos. Essas operações podem demorar um pouco para grandes quadros de dados, então eu gostaria de saber se é possível ter saída baseada em texto em um bloco de notas iPython que me atualize sobre o progresso.
Até agora, eu tentei indicadores de progresso de loop canônico para Python, mas eles não interagem com os pandas de maneira significativa.
Eu espero que haja algo que eu tenha esquecido na biblioteca / documentação do pandas que permite conhecer o progresso de uma combinação de aplicação dividida. Uma implementação simples talvez visse o número total de subconjuntos de quadros de dados sobre os quaisapply
A função está funcionando e informa o progresso como a fração completa desses subconjuntos.
Isso talvez seja algo que precisa ser adicionado à biblioteca?