Czas na pobranie pojedynczych elementów z obiektów data.table i data.frame
W mojej pracy używam kilku tabel (dane klienta, rekordy transakcji itp.). Ponieważ niektóre z nich są bardzo duże (miliony wierszy), ostatnio przełączam nadata.table
pakiet (dzięki Matthew). Jednak niektóre z nich są dość małe (kilkaset wierszy i kolumna 4/5) i są wywoływane kilka razy. Dlatego zacząłem o tym myśleć[.data.table
nad głowąaport dane zamiast ustawiać () wartość, jak już wyraźnie opisano w?set
, gdzie, niezależnie od wielkości tabeli, jedna pozycja jest ustawiona na około 2 mikrosekundy (w zależności od procesora).
Jednak wydaje się, że nie istnieje odpowiednikset
za uzyskanie wartości z adata.table
znając dokładny rząd i kolumnę. W pewnym sensieloopable [.data.table
.
library(data.table)
library(microbenchmark)
m = matrix(1,nrow=100000,ncol=100)
DF = as.data.frame(m)
DT = as.data.table(m) # same data used in ?set
> microbenchmark(DF[3450,1] , DT[3450, V1], times=1000) # much more overhead in DT
Unit: microseconds
expr min lq median uq max neval
DF[3450, 1] 32.745 36.166 40.5645 43.497 193.533 1000
DT[3450, V1] 788.791 803.453 813.2270 832.287 5826.982 1000
> microbenchmark(DF$V1[3450], DT[3450, 1, with=F], times=1000) # using atomic vector and
# removing part of DT overhead
Unit: microseconds
expr min lq median uq max neval
DF$V1[3450] 2.933 3.910 5.865 6.354 36.166 1000
DT[3450, 1, with = F] 297.629 303.494 305.938 309.359 1878.632 1000
> microbenchmark(DF$V1[3450], DT$V1[3450], times=1000) # using only atomic vectors
Unit: microseconds
expr min lq median uq max neval
DF$V1[3450] 2.933 2.933 3.421 3.422 40.565 1000 # DF seems still a bit faster (23%)
DT$V1[3450] 3.910 3.911 4.399 4.399 16.128 1000
Ostatnia metoda jest rzeczywiście najlepsza do szybkiego kilkakrotnego pobrania pojedynczego elementu. Jednak,set
jest jeszcze szybszy
> microbenchmark(set(DT,1L,1L,5L), times=1000)
Unit: microseconds
expr min lq median uq max neval
set(DT, 1L, 1L, 5L) 1.955 1.956 2.444 2.444 24.926 1000
pytanie brzmi: Jeśli możemyset
wartość w 2.444 mikrosekundach nie powinna być możliwadostać wartość w mniejszym (lub przynajmniej podobnym) czasie? Dzięki.
EDYTUJ: dodanie dwóch dodatkowych opcji zgodnie z sugestią:
> microbenchmark(`[.data.frame`(DT,3450,1), DT[["V1"]][3450], times=1000)
Unit: microseconds
expr min lq median uq max neval
`[.data.frame`(DT, 3450, 1) 46.428 47.895 48.383 48.872 2165.509 1000
DT[["V1"]][3450] 20.038 21.504 23.459 24.437 116.316 1000
które niestety nie są szybsze niż poprzednie próby.