removendo unidades duplicadas do quadro de dados
Estou trabalhando em um grande conjunto de dados com n covariates. Muitas das linhas são duplicadas. Para identificar as duplicatas, preciso usar um subconjunto das covariáveis para criar uma variável de identificação. Ou seja, as covariáveis (n-x) são irrelevantes. Eu quero concatenar os valores nas covariáveis x para identificar exclusivamente as observações e eliminar as duplicatas.
set.seed(1234)
UNIT <- c(1,1,1,1,2,2,2,3,3,3,4,4,4,5,6,6,6)
DATE <- c("1/1/2010","1/1/2010","1/1/2010","1/2/2012","1/2/2009","1/2/2004","1/2/2005","1/2/2005",
"1/1/2011","1/1/2011","1/1/2011","1/1/2009","1/1/2008","1/1/2008","1/1/2012","1/1/2013",
"1/1/2012")
OUT1 <- c(300,400,400,400,600,700,700,800,800,800,900,700,700,100,100,100,500)
JUNK1 <- c(rnorm(17,0,1))
JUNK2 <- c(rnorm(17,0,1))
test = data.frame(UNIT,DATE,OUT1,JUNK1,JUNK2)
'teste' é um quadro de dados de amostra. As variáveis que preciso usar para identificar as observações são 'UNIT', 'DATE' e 'OUT1'. Por exemplo,
head(test)
UNIT DATE OUT1 JUNK1 JUNK2
1 1 1/1/2010 300 -1.2070657 -0.9111954
2 1 1/1/2010 400 0.2774292 -0.8371717
3 1 1/1/2010 400 1.0844412 2.4158352
4 1 1/2/2012 400 -2.3456977 0.1340882
5 2 1/2/2009 600 0.4291247 -0.4906859
6 2 1/2/2004 700 0.5060559 -0.4405479
Observações 1 e 4 não são uma duplicata no conjunto de dados. Observações 2 e 3 são duplicatas. O novo conjunto de dados que eu quero criar manteria as observações 1 e 4 eapenas um de 2 e 3. A solução que tentei é:
subset(test, !duplicated(c(UNIT,DATE,OUT1)))
Que infelizmente não faz o truque:
UNIT DATE OUT1 JUNK1 JUNK2
1 1 1/1/2010 300 -1.20706575 -0.9111954
5 2 1/2/2009 600 0.42912469 -0.4906859
8 3 1/2/2005 800 -0.54663186 -0.6937202
11 4 1/1/2011 900 -0.47719270 -1.0236557
14 5 1/1/2008 100 0.06445882 1.1022975
15 6 1/1/2012 100 0.95949406 -0.4755931
Embora ignore as variáveis irrelevantes (JUNK1, JUNK2), a técnica é muito gananciosa. O novo conjunto de dados deve conter três observações sobre a unidade um, pois há três combinações exclusivas de UNIDADE + DATA + SAÍDA1 quando UNIDADE = 1. Existe uma maneira de conseguir isso sem escrever uma função?