Resultados de la búsqueda a petición "spark-dataframe"
¿Cómo puede analizar una cadena que es json de una tabla temporal existente usando PySpark?
Tengo un marco de datos Spark existente que tiene columnas como tales: -------------------- pid | response -------------------- 12 | {"status":"200"}La respuesta es una columna de cadena. ¿Hay alguna manera de convertirlo en JSON y extraer ...
Partición de parquet Spark: gran cantidad de archivos
Estoy tratando de aprovechar la partición de chispas. Estaba tratando de hacer algo como data.write.partitionBy("key").parquet("/location")El problema aquí es que cada partición crea una gran cantidad de archivos de parquet que resultan en ...
Pyspark: Pase múltiples columnas en UDF
Estoy escribiendo una función definida por el usuario que tomará todas las columnas excepto la primera en un marco de datos y sumará (o cualquier otra operación). Ahora el marco de datos a veces puede tener 3 columnas o 4 columnas o más. ...
Pyspark - ValueError: no se pudo convertir la cadena en flotante / literal no válido para float ()
Estoy tratando de usar datos de un marco de datos de chispa como entrada para mi modelo k-means. Sin embargo, sigo recibiendo errores. (Ver sección después del código) Mi marco de datos de chispa y se ve así (y tiene alrededor de 1 millón ...
¿Cómo escribir Pyspark UDAF en varias columnas?
Tengo los siguientes datos en un marco de datos pyspark llamadoend_stats_df: values start end cat1 cat2 10 1 2 A B 11 1 2 C B 12 1 2 D B 510 1 2 D C 550 1 2 C B 500 1 2 A B 80 1 3 A BY quiero agregarlo de la siguiente manera: Quiero usar las ...
Spark dataframe: Pivot y Group basado en columnas
Tengo el marco de datos de entrada como se muestra a continuación con ID, aplicación y cliente Marco de datos de entrada +--------------------+-----+---------+ | id|app |customer | +--------------------+-----+---------+ |id1 | fw| WM | |id1 | ...
PySpark: ¿Cómo rellenar valores en el marco de datos para columnas específicas?
Tengo el siguiente DataFrame de muestra: a | b | c | 1 | 2 | 4 | 0 | null | null| null | 3 | 4 |Y quiero reemplazar los valores nulos solo en las 2 primeras columnas - Columna "a" y "b": a | b | c | 1 | 2 | 4 | 0 | 0 | null| 0 | 3 | 4 |Aquí ...
unir dinámicamente dos marcos de datos de spark-scala en varias columnas sin condiciones de unión de codificación fija
Me gustaría unir dos marcos de datos de spark-scala en varias columnas dinámicamente. Evitaría la comparación del nombre de la columna de codificación rígida como se muestra en las siguientes declaraciones; val joinRes = df1.join(df2, ...
cómo obtener meses, años de diferencia entre dos fechas en sparksql
Recibo el error: org.apache.spark.sql.analysisexception: cannot resolve 'year'Mis datos de entrada: 1,2012-07-21,2014-04-09Mi código: val sqlContext = new org.apache.spark.sql.SQLContext(sc) import sqlContext.implicits._ import ...
eliminar columnas NULL en Spark SQL
¿Cómo eliminar columnas que contienen solo valores nulos de una tabla? Supongamos que tengo una mesa. SnapshotDate CreationDate Country Region CloseDate Probability BookingAmount RevenueAmount SnapshotDate1 CreationDate1 CloseDate1 null null ...