Reindexar um quadro de dados com valores de índice duplicados

Question

Jun 22, 2015, 08:14 PM

Reindexar um quadro de dados com valores de índice duplicados

Então, importei e mesclei 4 csv's em um dataframe chamado data. No entanto, ao inspecionar o índice do quadro de dados com:

index_series = pd.Series(data.index.values)
index_series.value_counts()

Vejo que várias entradas de índice têm 4 contagens. Eu quero reindexar completamente o quadro de dados, para que cada linha agora tenha um valor de índice exclusivo. Eu tentei:

data.reindex(np.arange(len(data)))

que deu o erro "ValueError: não é possível reindexar a partir de um eixo duplicado". Uma pesquisa no Google me leva a pensar que esse erro ocorre porque existem até 4 linhas que compartilham o mesmo valor de índice. Alguma idéia de como eu posso fazer isso reindexando sem soltar nenhuma linha? Também não me importo com a ordem das linhas, pois sempre posso classificá-las.

ATUALIZAÇÃO: Então, no final, eu encontrei uma maneira de reindexar como eu queria.

data['index'] = np.arange(len(data))
data = data.set_index('index')

Pelo que entendi, acabei de adicionar uma nova coluna chamada 'index' ao meu quadro de dados e depois definir essa coluna como meu índice. Quanto aos meus csv, eles eram os quatro csv em "download data de empréstimo" emesta página das estatísticas de empréstimo do Lending Club.