Velocidade de operação vetorizada dependente do número de colunas de data.frame

Question

Apr 25, 2013, 06:09 PM

Velocidade de operação vetorizada dependente do número de colunas de data.frame

Por que demora mais para operar uma comparação em um data.frame com o mesmo número de elementos, mas organizados em mais colunas em operações vetorizadas? Veja este exemplo simples, onde subtraímos 0,5 de cada elemento e depois comparamos para ver se é <0 (relacionado a esta questão ):

f.df <- function( df , x = 0.5 ){
  df <- df - x
  df[ df < 0 ] <- 0
  return( df )
}


df1 <- data.frame( matrix( runif(1e5) , nrow = 1e2 ) )
df2 <- data.frame( matrix( runif(1e5) , nrow = 1e3 ) )
df3 <- data.frame( matrix( runif(1e5) , nrow = 1e4 ) )

require( microbenchmark )
microbenchmark( f.df( df1 ) , f.df( df2 ) , f.df( df3 ) , times = 10L )


#Unit: milliseconds
#     expr        min         lq     median         uq        max neval
# f.df(df1) 1562.66827 1568.21097 1595.07005 1674.91726 1680.90092    10
# f.df(df2)   95.77452   98.12557  101.31215  190.46906  198.23927    10
# f.df(df3)   16.25295   16.42373   16.74989   17.95621   18.69218    10