¿Por qué el uso de dplyr pipe (%>%) es más lento que una expresión no pipe equivalente, para el grupo por alta cardinalidad?
Pensé que, en general, usando%>%
no tendría un efecto notable en la velocidad. Pero en este caso funciona 4 veces más lento.
library(dplyr)
library(microbenchmark)
set.seed(0)
dummy_data <- dplyr::data_frame(
id=floor(runif(100000, 1, 100000))
, label=floor(runif(100000, 1, 4))
)
microbenchmark(dummy_data %>% group_by(id) %>% summarise(list(unique(label))))
microbenchmark(dummy_data %>% group_by(id) %>% summarise(label %>% unique %>% list))
Sin tubo:
min lq mean median uq max neval
1.691441 1.739436 1.841157 1.812778 1.880713 2.495853 100
Con tubo:
min lq mean median uq max neval
6.753999 6.969573 7.167802 7.052744 7.195204 8.833322 100
Por que es%>%
mucho más lento en esta situación? ¿Hay una mejor manera de escribir esto?