Calcular eficientemente los totales de fila de un Spark DF ancho

Question

Dec 14, 2017, 06:16 PM

r apache-spark dplyr apache-spark-sql sparklyr

Calcular eficientemente los totales de fila de un Spark DF ancho

Tengo un amplio marco de datos de chispa de unos pocos miles de columnas por aproximadamente un millón de filas, para lo cual me gustaría calcular los totales de las filas. Mi solución hasta ahora está por debajo. Solía:dplyr - suma de múltiples columnas usando expresiones regulares yhttps://github.com/tidyverse/rlang/issues/116

library(sparklyr)
library(DBI)
library(dplyr)
library(rlang)

sc1 <- spark_connect(master = "local")
wide_df = as.data.frame(matrix(ceiling(runif(2000, 0, 20)), 10, 200))
wide_sdf = sdf_copy_to(sc1, wide_df, overwrite = TRUE, name = "wide_sdf")

col_eqn = paste0(colnames(wide_df), collapse = "+" )

# build up the SQL query and send to spark with DBI
query = paste0("SELECT (",
               col_eqn,
               ") as total FROM wide_sdf")

dbGetQuery(sc1, query)

# Equivalent approach using dplyr instead
col_eqn2 = quo(!! parse_expr(col_eqn))

wide_sdf %>% 
    transmute("total" := !!col_eqn2) %>%
        collect() %>%
            as.data.frame()

Los problemas surgen cuando aumenta el número de columnas. En spark SQL parece calcularse un elemento a la vez, es decir (((V1 + V1) + V3) + V4) ...) Esto está generando errores debido a una recursividad muy alta.

¿Alguien tiene un enfoque alternativo más eficiente? Cualquier ayuda sería muy apreciada.