multi-coluna fatoriza em pandas
Os pandasfactorize
function atribui cada valor único em uma série a um índice sequencial baseado em 0 e calcula a qual índice pertence cada entrada em série.
Eu gostaria de realizar o equivalente apandas.factorize
em várias colunas:
import pandas as pd
df = pd.DataFrame({'x': [1, 1, 2, 2, 1, 1], 'y':[1, 2, 2, 2, 2, 1]})
pd.factorize(df)[0] # would like [0, 1, 2, 2, 1, 0]
Ou seja, desejo determinar cada tupla única de valores em várias colunas de um quadro de dados, atribuir um índice sequencial a cada um e calcular em qual índice cada linha do quadro de dados pertence.
Factorize
funciona apenas em colunas únicas. Existe uma função equivalente multi-coluna nos pandas?