Resultados de la búsqueda a petición "apache-spark"
Cómo forzar la evaluación de DataFrame en Spark
A veces (por ejemplo, para pruebas y bechmarking) quiero forzar la ejecución de las transformaciones definidas en un DataFrame. AFAIK llamando a una acción comocount no asegura que todoColumns en realidad se calculanshow solo puede calcular un ...
Columna Spark Dataframe con el último carácter de otra columna
Estoy buscando una manera de obtener el último carácter de una cadena en una columna de marco de datos y colocarlo en otra columna. Tengo un marco de datos de Spark que se ve así: animal ====== cat mouse snakeQuiero algo como esto: lastchar ...
PySpark: obtenga el número de fila para cada fila de un grupo
Con pyspark, me gustaría poder agrupar un marco de datos de chispa, ordenar el grupo y luego proporcionar un número de fila. Entonces Group Date A 2000 A 2002 A 2007 B 1999 B 2015Se convertiría Group Date row_num A 2000 0 A 2002 1 A 2007 2 B ...
Sparklyr - Cambiar nombres de columnas en un marco de datos de Spark
df <- data.frame(old1 = LETTERS, old2 = 1) df_tbl <- copy_to(sc,df,"df") df_tbl <- df_tbl %>% dplyr::rename(old1 = new1, old2 = new2)devoluciones: > head(df_tbl) Error: `new1`, `new2` contains unknown variables¿Hay alguna manera fácil de cambiar ...
Error de gasoducto
Estoy tratando de ejecutar un modelo de regresión logística multinomial from pyspark.sql import SparkSession spark = SparkSession.builder.appName('prepare_data').getOrCreate() from pyspark.sql.types import * spark.sql("DROP TABLE IF EXISTS ...
Spark-Streaming Kafka Direct Streaming API y paralelismo
Entendí el mapeo automatizado que existe entre una partición Kafka y una partición Spark RDD y, en última instancia, la tarea Spark. Sin embargo, para dimensionar adecuadamente Mi ejecutor (en número de Core) y, por lo tanto, en última instancia, ...
Diferencia entre dos filas en el marco de datos de Spark
Creé un marco de datos en Spark, por grupo por columna1 y fecha y calculé la cantidad. val table = df1.groupBy($"column1",$"date").sum("amount") Column1 |Date |Amount A |1-jul |1000 A |1-june |2000 A |1-May |2000 A |1-dec |3000 A |1-Nov |2000 ...
¿Cómo usar la especificación de ventana y la condición de unión por valores de columna?
Aquí está mi DF1 OrganizationId|^|AnnualPeriodId|^|InterimPeriodId|^|InterimNumber|^|FFAction 4295858898|^|204|^|205|^|1|^|I|!| 4295858898|^|204|^|208|^|2|^|I|!| 4295858898|^|204|^|209|^|2|^|I|!| ...
cómo manejar millones de archivos s3 más pequeños con apache spark
así que este problema me ha estado volviendo loco, y está comenzando a sentir que la chispa con s3 no es la herramienta adecuada para este trabajo específico. Básicamente, tengo millones de archivos más pequeños en un cubo s3. Por razones en las ...
Compare dos marcos de datos de Spark
Spark dataframe 1 -: +------+-------+---------+----+---+-------+ |city |product|date |sale|exp|wastage| +------+-------+---------+----+---+-------+ |city 1|prod 1 |9/29/2017|358 |975|193 | |city 1|prod 2 |8/25/2017|50 |687|201 | |city 1|prod ...