¿Por qué el uso de dplyr pipe (%>%) es más lento que una expresión no pipe equivalente, para el grupo por alta cardinalidad?

Question

Mar 11, 2016, 06:55 AM

dplyr magrittr cardinality r performance

¿Por qué el uso de dplyr pipe (%>%) es más lento que una expresión no pipe equivalente, para el grupo por alta cardinalidad?

Pensé que, en general, usando%>% no tendría un efecto notable en la velocidad. Pero en este caso funciona 4 veces más lento.

library(dplyr)
library(microbenchmark)

set.seed(0)
dummy_data <- dplyr::data_frame(
  id=floor(runif(100000, 1, 100000))
  , label=floor(runif(100000, 1, 4))
)

microbenchmark(dummy_data %>% group_by(id) %>% summarise(list(unique(label))))
microbenchmark(dummy_data %>% group_by(id) %>% summarise(label %>% unique %>% list))

Sin tubo:

min       lq     mean   median       uq      max neval
1.691441 1.739436 1.841157 1.812778 1.880713 2.495853   100

Con tubo:

min       lq     mean   median       uq      max neval
6.753999 6.969573 7.167802 7.052744 7.195204 8.833322   100

Por que es%>% mucho más lento en esta situación? ¿Hay una mejor manera de escribir esto?

Respuestas a la pregunta(3)

Preguntas populares

0 la respuesta

Visual Studio Larga espera antes de comenzar a construir

0 la respuesta

¿Por qué usar Val simple en clases no finales?

0 la respuesta

¿Cómo devuelvo un booleano desde AsyncTask?

0 la respuesta

Eliminar elementos de una colección en java mientras se itera sobre ella

0 la respuesta

Java: javap ERROR: No se pudo encontrar .class

¡Eres muy activo! ¡Es genial!

¿Por qué el uso de dplyr pipe (%&gt;%) es más lento que una expresión no pipe equivalente, para el grupo por alta cardinalidad?

Respuestas a la pregunta(3)

Su respuesta a la pregunta

Preguntas populares

¿Por qué el uso de dplyr pipe (%>%) es más lento que una expresión no pipe equivalente, para el grupo por alta cardinalidad?