Resultados de la búsqueda a petición "sparklyr"

1 la respuesta

¿Cómo aplanar los datos de diferentes tipos de datos utilizando el paquete Sparklyr?

Introducció l código @R se escribe utilizando el paquete Sparklyr para crear un esquema de base de datos. @ [Se proporciona código reproducible y base de datos] Resultado existente root |-- contributors : string |-- created_at : string |-- ...

1 la respuesta

R: ¿Cómo puedo extraer un elemento de una columna de datos en la conexión de chispa (sparklyr) en la tubería

Tengo un conjunto de datos como se muestra a continuación. Debido a su gran cantidad de datos, lo cargué a través desparklyr package, así que solo puedo usar declaraciones de canalización. pos <- str_sub(csj$helpful,2) neg1 <- ...

2 la respuesta

cuenta el número de elementos únicos en cada columna con dplyr en sparklyr

Estoy tratando de contar el número de elementos únicos en cada columna en el conjunto de datos de chispa. Sin embargo, parece que la chispa no reconoce la ...

3 la respuesta

¿Cómo convertir una marca de tiempo en cadena (sin cambiar la zona horaria)?

Tengo algunas veces unix que convierto en marcas de tiempo ensparklyr y por alguna razón también necesito convertirlos en cadenas. Desafortunadamente, parece que durante la conversión a cadenahive se convierte a EST (mi localidad). df_new <- ...

1 la respuesta

Calcular eficientemente los totales de fila de un Spark DF ancho

Tengo un amplio marco de datos de chispa de unos pocos miles de columnas por aproximadamente un millón de filas, para lo cual me gustaría calcular los totales de las filas. Mi solución hasta ahora está por debajo. Solía:dplyr - suma de múltiples ...

1 la respuesta

Cómo filtrar en una coincidencia parcial con sparklyr

Soy nuevo en sparklyr (pero estoy familiarizado con spark y pyspark), y tengo una pregunta muy básica. Estoy tratando de filtrar una columna en función de una coincidencia parcial. En dplyr, escribiría mi operación así: businesses %>% ...

1 la respuesta

Sparklyr - Cambiar nombres de columnas en un marco de datos de Spark

df <- data.frame(old1 = LETTERS, old2 = 1) df_tbl <- copy_to(sc,df,"df") df_tbl <- df_tbl %>% dplyr::rename(old1 = new1, old2 = new2)devoluciones: > head(df_tbl) Error: `new1`, `new2` contains unknown variables¿Hay alguna manera fácil de cambiar ...

1 la respuesta

¿Cómo usar un predicado mientras se lee desde una conexión JDBC?

Por defecto,spark_read_jdbc() lee una tabla de base de datos completa en Spark. He usado la siguiente sintaxis para crear estas conexiones. library(sparklyr) library(dplyr) config <- spark_config() config$`sparklyr.shell.driver-class-path` ...

3 la respuesta

sparklyr escribe datos en hdfs o colmena

Intenté usar sparklyr para escribir datos en hdfs o hive, pero no pude encontrar una manera. ¿Es posible incluso escribir un marco de datos R en hdfs o colmena usando sparklyr? Tenga en cuenta que mi R y hadoop se ejecutan en dos ...

1 la respuesta

Sparklyr: use group_by y luego concatene cadenas de filas en un grupo

Estoy tratando de usar las funciones group_by () y mutate () en sparklyr para concatenar filas en un grupo. Aquí hay un ejemplo simple que creo que debería funcionar pero no funciona: library(sparkylr) d <- data.frame(id=c("1", "1", "2", "2", ...