establecer la diferencia para los pandas

Question

Aug 12, 2013, 08:29 AM

establecer la diferencia para los pandas

Una simple pregunta de los pandas:

Hay undrop_duplicates() ¿Funcionalidad para soltar cada fila involucrada en la duplicación?

Una pregunta equivalente es la siguiente: ¿Los pandas tienen una diferencia establecida para los marcos de datos?

Por ejemplo:

In [5]: df1 = pd.DataFrame({'col1':[1,2,3], 'col2':[2,3,4]})

In [6]: df2 = pd.DataFrame({'col1':[4,2,5], 'col2':[6,3,5]})

In [7]: df1
Out[7]: 
   col1  col2
0     1     2
1     2     3
2     3     4

In [8]: df2
Out[8]: 
   col1  col2
0     4     6
1     2     3
2     5     5

así que tal vez algo comodf2.set_diff(df1) producirá esto:

   col1  col2
0     4     6
2     5     5

Sin embargo, no quiero confiar en los índices porque, en mi caso, tengo que tratar con marcos de datos que tienen índices distintos.

Por cierto, inicialmente pensé en una extensión de la actualdrop_duplicates() Método, pero ahora me doy cuenta de que el segundo enfoque que usa propiedades de la teoría de conjuntos sería mucho más útil en general. Sin embargo, ambos enfoques resuelven mi problema actual.

¡Gracias!