Identificando linhas duplicadas

Question

Jul 30, 2014, 06:03 PM

Identificando linhas duplicadas

Eu tenho um quadro de dados maior (~ 50K linhas e 50 a 75 colunas) que possui um pequeno número de linhas duplicadas em, digamos, 7 das 75 colunas. Embora seja simples o suficiente para localizar linhas que duplicam linhas acima usandoduplicated(...), Desejo poder extrair as linhas duplicadas e a linha duplicada ou se (roubadas de uma postagem anterior)

a <- c(rep("A", 3), rep("B", 3), rep("C",2))
b <- c(1,1,2,4,1,1,2,2)
d <- c('x','y','x','z','y','y','z','x')
df <- data.frame(a,b,d)
df
  a b d
1 A 1 x
2 A 1 y
3 A 2 x
4 B 4 z
5 B 1 y
6 B 1 y
7 C 2 z
8 C 2 x

duplicated(df[,c(1,2)]) fornece as linhas 2, 6 e 8. A linha 2 duplica a linha 1, a linha 6 duplica 5 e a linha 8 duplica 7 com base nas colunas 1 e 2. Portanto, desejo revisar as linhas 1 e 2 para ver quais são as diferenças, se houver, pode estar na coluna d. Fácil o suficiente com 8 linhas e 3 colunas, mas meu problema é muito maior.

Para resumir, estou procurando uma maneira simples de encontrar os índices de linha, digamos as linhas 1 e 2, 5 e 6 e 7 e 8 com base em um subconjunto das colunas 50-75, para que eu possa comparar visualmente as linhas duplicadas com base no subconjunto.

Pensamentos?