Por que o uso de dplyr pipe (%>%) é mais lento que uma expressão equivalente não-pipe, para alta cardinalidade, agrupar por?

Question

Mar 11, 2016, 06:55 AM

magrittr performance r dplyr cardinality

Por que o uso de dplyr pipe (%>%) é mais lento que uma expressão equivalente não-pipe, para alta cardinalidade, agrupar por?

Eu pensei que, de um modo geral, usando%>% não teria um efeito perceptível na velocidade. Mas neste caso, ele roda 4x mais devagar.

library(dplyr)
library(microbenchmark)

set.seed(0)
dummy_data <- dplyr::data_frame(
  id=floor(runif(100000, 1, 100000))
  , label=floor(runif(100000, 1, 4))
)

microbenchmark(dummy_data %>% group_by(id) %>% summarise(list(unique(label))))
microbenchmark(dummy_data %>% group_by(id) %>% summarise(label %>% unique %>% list))

Sem tubo:

min       lq     mean   median       uq      max neval
1.691441 1.739436 1.841157 1.812778 1.880713 2.495853   100

Com tubo:

min       lq     mean   median       uq      max neval
6.753999 6.969573 7.167802 7.052744 7.195204 8.833322   100

Porque é%>% muito mais lento nessa situação? Existe uma maneira melhor de escrever isso?

questionAnswers(3)

Perguntas populares

0 a resposta

O prefixo “context” para o elemento “context: component-scan” não está vinculado

0 a resposta

Substituir dados "novos" e de registro sobre o chamador

0 a resposta

Imitando uma tag de piscada com animações CSS3

0 a resposta

Zipando listas dentro de uma lista em Python

0 a resposta

Modelagem de banco de dados de associações polimórficas - primeiro versus código primeiro

Você é muito ativo! É ótimo!

Por que o uso de dplyr pipe (%&gt;%) é mais lento que uma expressão equivalente não-pipe, para alta cardinalidade, agrupar por?

questionAnswers(3)

yourAnswerToTheQuestion

Perguntas populares

Por que o uso de dplyr pipe (%>%) é mais lento que uma expressão equivalente não-pipe, para alta cardinalidade, agrupar por?