multi-coluna fatoriza em pandas

Question

May 09, 2013, 04:39 AM

data-cleansing python enumeration pandas

multi-coluna fatoriza em pandas

Os pandasfactorize function atribui cada valor único em uma série a um índice sequencial baseado em 0 e calcula a qual índice pertence cada entrada em série.

Eu gostaria de realizar o equivalente apandas.factorize em várias colunas:

import pandas as pd
df = pd.DataFrame({'x': [1, 1, 2, 2, 1, 1], 'y':[1, 2, 2, 2, 2, 1]})
pd.factorize(df)[0] # would like [0, 1, 2, 2, 1, 0]

Ou seja, desejo determinar cada tupla única de valores em várias colunas de um quadro de dados, atribuir um índice sequencial a cada um e calcular em qual índice cada linha do quadro de dados pertence.

Factorize funciona apenas em colunas únicas. Existe uma função equivalente multi-coluna nos pandas?