Warum verwendet dplyr pipe (%>%) langsamer als ein äquivalenter Ausdruck, der keine Pipe ist, für Group-by-Operationen mit hoher Kardinalität?

Question

Mar 11, 2016, 06:55 AM

dplyr cardinality performance r magrittr

Warum verwendet dplyr pipe (%>%) langsamer als ein äquivalenter Ausdruck, der keine Pipe ist, für Group-by-Operationen mit hoher Kardinalität?

Ich dachte, dass im Allgemeinen mit%>% hätte keinen spürbaren Einfluss auf die Geschwindigkeit. Aber in diesem Fall läuft es 4x langsamer.

library(dplyr)
library(microbenchmark)

set.seed(0)
dummy_data <- dplyr::data_frame(
  id=floor(runif(100000, 1, 100000))
  , label=floor(runif(100000, 1, 4))
)

microbenchmark(dummy_data %>% group_by(id) %>% summarise(list(unique(label))))
microbenchmark(dummy_data %>% group_by(id) %>% summarise(label %>% unique %>% list))

Ohne Pipe:

min       lq     mean   median       uq      max neval
1.691441 1.739436 1.841157 1.812778 1.880713 2.495853   100

Mit Pipe:

min       lq     mean   median       uq      max neval
6.753999 6.969573 7.167802 7.052744 7.195204 8.833322   100

Warum ist%>% so viel langsamer in dieser situation? Gibt es eine bessere Möglichkeit, dies zu schreiben?

Antworten auf die Frage(6)

Top Fragen

0 die antwort

Google Sheets: QUERY mit Zelleninhalten als SQL-Variablen

0 die antwort

Wie wird die iBeacon-Unterstützung in iOS 7.1 WIRKLICH geändert?

0 die antwort

Wie wird die Standardschriftfamilie in React Native festgelegt?

0 die antwort

Android-Projekt kann nicht mit Android Studio - Gradle 1.7 erstellt werden

0 die antwort

Node.js scheint das mehrteilige Modul zu fehlen

Du bist sehr aktiv! Es ist großartig!

Warum verwendet dplyr pipe (%&gt;%) langsamer als ein äquivalenter Ausdruck, der keine Pipe ist, für Group-by-Operationen mit hoher Kardinalität?

Antworten auf die Frage(6)

Ihre Antwort auf die Frage

Top Fragen

Warum verwendet dplyr pipe (%>%) langsamer als ein äquivalenter Ausdruck, der keine Pipe ist, für Group-by-Operationen mit hoher Kardinalität?