Filtrowanie zduplikowanych / nieunikalnych wierszy w tabeli danych

Question

Aug 03, 2012, 10:58 AM

Filtrowanie zduplikowanych / nieunikalnych wierszy w tabeli danych

mamdata.table tabela zawierająca około 2,5 miliona wierszy. Istnieją dwie kolumny. Chcę usunąć wszystkie wiersze, które są duplikowane w obu kolumnach. Wcześniej dla danych. Zrobiłbym to:df -> unique(df[,c('V1', 'V2')]) ale to nie działa z data.table. próbowałemunique(df[,c(V1,V2), with=FALSE]) ale wydaje się, że nadal działa tylko na kluczu data.table, a nie na całym wierszu.

Jakieś sugestie?

Pozdrawiam, Davy

Przykład

>dt
      V1   V2
[1,]  A    B
[2,]  A    C
[3,]  A    D
[4,]  A    B
[5,]  B    A
[6,]  C    D
[7,]  C    D
[8,]  E    F
[9,]  G    G
[10,] A    B

w powyższych danych.tabela gdzieV2 jest kluczem tabeli, tylko wiersze 4,7 i 10 zostaną usunięte.

> dput(dt)
structure(list(V1 = c("B", "A", "A", "A", "A", "A", "C", "C", 
"E", "G"), V2 = c("A", "B", "B", "B", "C", "D", "D", "D", "F", 
"G")), .Names = c("V1", "V2"), row.names = c(NA, -10L), class = c("data.table", 
"data.frame"), .internal.selfref = <pointer: 0x7fb4c4804578>, sorted = "V2")