Resultados de la búsqueda a petición "apache-spark"

4 la respuesta

Cómo forzar la evaluación de DataFrame en Spark

A veces (por ejemplo, para pruebas y bechmarking) quiero forzar la ejecución de las transformaciones definidas en un DataFrame. AFAIK llamando a una acción comocount no asegura que todoColumns en realidad se calculanshow solo puede calcular un ...

2 la respuesta

Columna Spark Dataframe con el último carácter de otra columna

Estoy buscando una manera de obtener el último carácter de una cadena en una columna de marco de datos y colocarlo en otra columna. Tengo un marco de datos de Spark que se ve así: animal ====== cat mouse snakeQuiero algo como esto: lastchar ...

2 la respuesta

PySpark: obtenga el número de fila para cada fila de un grupo

Con pyspark, me gustaría poder agrupar un marco de datos de chispa, ordenar el grupo y luego proporcionar un número de fila. Entonces Group Date A 2000 A 2002 A 2007 B 1999 B 2015Se convertiría Group Date row_num A 2000 0 A 2002 1 A 2007 2 B ...

1 la respuesta

Sparklyr - Cambiar nombres de columnas en un marco de datos de Spark

df <- data.frame(old1 = LETTERS, old2 = 1) df_tbl <- copy_to(sc,df,"df") df_tbl <- df_tbl %>% dplyr::rename(old1 = new1, old2 = new2)devoluciones: > head(df_tbl) Error: `new1`, `new2` contains unknown variables¿Hay alguna manera fácil de cambiar ...

1 la respuesta

Error de gasoducto

Estoy tratando de ejecutar un modelo de regresión logística multinomial from pyspark.sql import SparkSession spark = SparkSession.builder.appName('prepare_data').getOrCreate() from pyspark.sql.types import * spark.sql("DROP TABLE IF EXISTS ...

1 la respuesta

Spark-Streaming Kafka Direct Streaming API y paralelismo

Entendí el mapeo automatizado que existe entre una partición Kafka y una partición Spark RDD y, en última instancia, la tarea Spark. Sin embargo, para dimensionar adecuadamente Mi ejecutor (en número de Core) y, por lo tanto, en última instancia, ...

3 la respuesta

Diferencia entre dos filas en el marco de datos de Spark

Creé un marco de datos en Spark, por grupo por columna1 y fecha y calculé la cantidad. val table = df1.groupBy($"column1",$"date").sum("amount") Column1 |Date |Amount A |1-jul |1000 A |1-june |2000 A |1-May |2000 A |1-dec |3000 A |1-Nov |2000 ...

1 la respuesta

¿Cómo usar la especificación de ventana y la condición de unión por valores de columna?

Aquí está mi DF1 OrganizationId|^|AnnualPeriodId|^|InterimPeriodId|^|InterimNumber|^|FFAction 4295858898|^|204|^|205|^|1|^|I|!| 4295858898|^|204|^|208|^|2|^|I|!| 4295858898|^|204|^|209|^|2|^|I|!| ...

1 la respuesta

cómo manejar millones de archivos s3 más pequeños con apache spark

así que este problema me ha estado volviendo loco, y está comenzando a sentir que la chispa con s3 no es la herramienta adecuada para este trabajo específico. Básicamente, tengo millones de archivos más pequeños en un cubo s3. Por razones en las ...

3 la respuesta

Compare dos marcos de datos de Spark

Spark dataframe 1 -: +------+-------+---------+----+---+-------+ |city |product|date |sale|exp|wastage| +------+-------+---------+----+---+-------+ |city 1|prod 1 |9/29/2017|358 |975|193 | |city 1|prod 2 |8/25/2017|50 |687|201 | |city 1|prod ...