Resultados de la búsqueda a petición "spark-dataframe"
¿Cómo escribir Pyspark UDAF en varias columnas?
Tengo los siguientes datos en un marco de datos pyspark llamadoend_stats_df: values start end cat1 cat2 10 1 2 A B 11 1 2 C B 12 1 2 D B 510 1 2 D C 550 1 2 C B 500 1 2 A B 80 1 3 A BY quiero agregarlo de la siguiente manera: Quiero usar las ...
¿Cómo puede analizar una cadena que es json de una tabla temporal existente usando PySpark?
Tengo un marco de datos Spark existente que tiene columnas como tales: -------------------- pid | response -------------------- 12 | {"status":"200"}La respuesta es una columna de cadena. ¿Hay alguna manera de convertirlo en JSON y extraer ...
PySpark, superior para DataFrame
Lo que quiero hacer es un marco de datos, tomar los n elementos principales de acuerdo con alguna columna especificada. La parte superior (self, num) en RDD API es exactamente lo que quiero. Me pregunto si hay una API equivalente en el mundo ...
Cómo resolver el AnalysisException: atributo (s) resuelto (s) en Spark
val rdd = sc.parallelize(Seq(("vskp", Array(2.0, 1.0, 2.1, 5.4)),("hyd",Array(1.5, 0.5, 0.9, 3.7)),("hyd", Array(1.5, 0.5, 0.9, 3.2)),("tvm", Array(8.0, 2.9, 9.1, 2.5)))) val df1= rdd.toDF("id", "vals") val rdd1 = ...
PySpark: obtenga el número de fila para cada fila de un grupo
Con pyspark, me gustaría poder agrupar un marco de datos de chispa, ordenar el grupo y luego proporcionar un número de fila. Entonces Group Date A 2000 A 2002 A 2007 B 1999 B 2015Se convertiría Group Date row_num A 2000 0 A 2002 1 A 2007 2 B ...
Cambie la marca de tiempo al formato UTC en Pyspark
Tengo un marco de datos de entrada (ip_df), los datos en este marco de datos son los siguientes: id timestamp_value 1 2017-08-01T14:30:00+05:30 2 2017-08-01T14:30:00+06:30 3 2017-08-01T14:30:00+07:30Necesito crear un nuevo marco de datos ...
Relleno en un marco de datos Pyspark
Tengo un marco de datos Pyspark (Marco de datos original) con los siguientes datos (todas las columnas tienencuerdatipo de datos): id Value 1 103 2 1504 3 1Necesito crear un nuevomarco de datos modificadoconrellenoenvalorcolumna, por lo que la ...
eliminar columnas NULL en Spark SQL
¿Cómo eliminar columnas que contienen solo valores nulos de una tabla? Supongamos que tengo una mesa. SnapshotDate CreationDate Country Region CloseDate Probability BookingAmount RevenueAmount SnapshotDate1 CreationDate1 CloseDate1 null null ...
PySpark: ¿Cómo rellenar valores en el marco de datos para columnas específicas?
Tengo el siguiente DataFrame de muestra: a | b | c | 1 | 2 | 4 | 0 | null | null| null | 3 | 4 |Y quiero reemplazar los valores nulos solo en las 2 primeras columnas - Columna "a" y "b": a | b | c | 1 | 2 | 4 | 0 | 0 | null| 0 | 3 | 4 |Aquí ...
Pyspark - ValueError: no se pudo convertir la cadena en flotante / literal no válido para float ()
Estoy tratando de usar datos de un marco de datos de chispa como entrada para mi modelo k-means. Sin embargo, sigo recibiendo errores. (Ver sección después del código) Mi marco de datos de chispa y se ve así (y tiene alrededor de 1 millón ...