Zaktualizuj podzbiór danych.tabela na podstawie złączenia

Question

Feb 06, 2013, 04:20 AM

subset r data.table join assignment-operator

Zaktualizuj podzbiór danych.tabela na podstawie złączenia

Mam dwie tabele danych, DT1 i DT2:

set.seed(1)
DT1<-data.table(id1=rep(1:3,2),id2=sample(letters,6), v1=rnorm(6), key="id2")
DT1
##    id1 id2         v1
## 1:   2   e  0.7383247
## 2:   1   g  1.5952808
## 3:   2   j  0.3295078
## 4:   3   n -0.8204684
## 5:   3   s  0.5757814
## 6:   1   u  0.4874291

DT2<-data.table(id2=c("n","u"), v1=0, key="id2")
DT2
##    id2 v1
## 1:   n  0
## 2:   u  0

Chciałbym zaktualizować DT1 na podstawie sprzężenia z DT2, ale tylko dla podzbioru DT1. Na przykład dlaDT1[id1==3], Spodziewałbym się, że wartość v1 w wierszu 4 zostanie zaktualizowana w następujący sposób:

DT1
##    id1 id2         v1
## 1:   2   e  0.7383247
## 2:   1   g  1.5952808
## 3:   2   j  0.3295078
## 4:   3   n          0
## 5:   3   s  0.5757814
## 6:   1   u  0.4874291

Wiem, jak zaktualizować tabelę (używając:= operator przypisania), jak dołączyć do tabel (DT1[DT2]) i jak ustawić tabelę (DT1[id1==3]). Jednak nie jestem pewien, jak zrobić wszystkie trzy naraz.

EDYTOWAĆ: Zauważ, że oryginalny przykład próbuje tylko zaktualizować jedną kolumnę, ale moje rzeczywiste dane wymagają aktualizacji wielu kolumn. Rozważ dodatkowe scenariusze w DT1b i DT2b:

set.seed(2)
DT1b<-DT1[,v2:=rnorm(6)] # Copy DT1 and add a new column
setkey(DT1b,id2)
DT1b
##    id1 id2         v1          v2
## 1:   2   e  0.7383247 -0.89691455
## 2:   1   g  1.5952808  0.18484918
## 3:   2   j  0.3295078  1.58784533
## 4:   3   n -0.8204684 -1.13037567
## 5:   3   s  0.5757814 -0.08025176
## 6:   1   u  0.4874291  0.13242028

DT2b<-rbindlist(list(DT2,data.table(id2="e",v1=0))) # Copy DT2 and add a new row
DT2b[,v2:=-1] # Add a new column to DT2b
setkey(DT2b,id2)
DT2b
##    id2 v1 v2
## 1:   e  0 -1
## 2:   n  0 -1
## 3:   u  0 -1

W oparciu o pomocne odpowiedzi od @nmel i @BlueMagister opracowałem to rozwiązanie dla zaktualizowanego scenariusza:

DT1b[DT2b[DT1b[id1 %in% c(1,2)],nomatch=0],c("v1","v2"):=list(i.v1,i.v2)]
DT1b
##    id1 id2         v1          v2
## 1:   2   e  0.0000000 -1.00000000
## 2:   1   g  1.5952808  0.18484918
## 3:   2   j  0.3295078  1.58784533
## 4:   3   n -0.8204684 -1.13037567
## 5:   3   s  0.5757814 -0.08025176
## 6:   1   u  0.0000000 -1.00000000