Funkcje okna podobne do SQL w PANDAS: numerowanie wierszy w ramce danych Pandon Pandas

Question

Jul 21, 2013, 09:16 PM

Funkcje okna podobne do SQL w PANDAS: numerowanie wierszy w ramce danych Pandon Pandas

Pochodzę z tła sql i często używam następującego kroku przetwarzania danych:

Podziel tabelę danych na jedno lub więcej pólDla każdej partycji dodaj numer wiersza do każdego z jego wierszy, który klasyfikuje wiersz według jednego lub więcej innych pól, gdzie analityk określa rosnąco lub malejąco

DAWNY:

df = pd.DataFrame({'key1' : ['a','a','a','b','a'],
           'data1' : [1,2,2,3,3],
           'data2' : [1,10,2,3,30]})
df
     data1        data2     key1    
0    1            1         a           
1    2            10        a        
2    2            2         a       
3    3            3         b       
4    3            30        a

Szukam, jak zrobić PANDAS odpowiednik tej funkcji okna sql:

RN = ROW_NUMBER() OVER (PARTITION BY Key1, Key2 ORDER BY Data1 ASC, Data2 DESC)


    data1        data2     key1    RN
0    1            1         a       1    
1    2            10        a       2 
2    2            2         a       3
3    3            3         b       1
4    3            30        a       4

Wypróbowałem następujące elementy, z których korzystałem, gdy nie ma „partycji”:

def row_number(frame,orderby_columns, orderby_direction,name):
    frame.sort_index(by = orderby_columns, ascending = orderby_direction, inplace = True)
    frame[name] = list(xrange(len(frame.index)))

Próbowałem rozszerzyć ten pomysł na pracę z partycjami (grupami w pandach), ale poniższe nie działały:

df1 = df.groupby('key1').apply(lambda t: t.sort_index(by=['data1', 'data2'], ascending=[True, False], inplace = True)).reset_index()

def nf(x):
    x['rn'] = list(xrange(len(x.index)))

df1['rn1'] = df1.groupby('key1').apply(nf)

Ale kiedy to zrobiłem, dostałem dużo NaNs.

Najlepiej byłoby, gdyby istniał zwięzły sposób na odtworzenie możliwości funkcji okna sql (odkryłem agregaty oparte na oknie ... to jedna linijka w pandach) ... czy ktoś może podzielić się ze mną najbardziej idiomatycznym sposobem liczba wierszy w ten sposób w PANDAS?