Resultados de la búsqueda a petición "spark-dataframe"

1 la respuesta

¿Cómo escribir Pyspark UDAF en varias columnas?

Tengo los siguientes datos en un marco de datos pyspark llamadoend_stats_df: values start end cat1 cat2 10 1 2 A B 11 1 2 C B 12 1 2 D B 510 1 2 D C 550 1 2 C B 500 1 2 A B 80 1 3 A BY quiero agregarlo de la siguiente manera: Quiero usar las ...

1 la respuesta

¿Cómo puede analizar una cadena que es json de una tabla temporal existente usando PySpark?

Tengo un marco de datos Spark existente que tiene columnas como tales: -------------------- pid | response -------------------- 12 | {"status":"200"}La respuesta es una columna de cadena. ¿Hay alguna manera de convertirlo en JSON y extraer ...

3 la respuesta

PySpark, superior para DataFrame

Lo que quiero hacer es un marco de datos, tomar los n elementos principales de acuerdo con alguna columna especificada. La parte superior (self, num) en RDD API es exactamente lo que quiero. Me pregunto si hay una API equivalente en el mundo ...

5 la respuesta

Cómo resolver el AnalysisException: atributo (s) resuelto (s) en Spark

val rdd = sc.parallelize(Seq(("vskp", Array(2.0, 1.0, 2.1, 5.4)),("hyd",Array(1.5, 0.5, 0.9, 3.7)),("hyd", Array(1.5, 0.5, 0.9, 3.2)),("tvm", Array(8.0, 2.9, 9.1, 2.5)))) val df1= rdd.toDF("id", "vals") val rdd1 = ...

2 la respuesta

PySpark: obtenga el número de fila para cada fila de un grupo

Con pyspark, me gustaría poder agrupar un marco de datos de chispa, ordenar el grupo y luego proporcionar un número de fila. Entonces Group Date A 2000 A 2002 A 2007 B 1999 B 2015Se convertiría Group Date row_num A 2000 0 A 2002 1 A 2007 2 B ...

2 la respuesta

Cambie la marca de tiempo al formato UTC en Pyspark

Tengo un marco de datos de entrada (ip_df), los datos en este marco de datos son los siguientes: id timestamp_value 1 2017-08-01T14:30:00+05:30 2 2017-08-01T14:30:00+06:30 3 2017-08-01T14:30:00+07:30Necesito crear un nuevo marco de datos ...

2 la respuesta

Relleno en un marco de datos Pyspark

Tengo un marco de datos Pyspark (Marco de datos original) con los siguientes datos (todas las columnas tienencuerdatipo de datos): id Value 1 103 2 1504 3 1Necesito crear un nuevomarco de datos modificadoconrellenoenvalorcolumna, por lo que la ...

2 la respuesta

eliminar columnas NULL en Spark SQL

¿Cómo eliminar columnas que contienen solo valores nulos de una tabla? Supongamos que tengo una mesa. SnapshotDate CreationDate Country Region CloseDate Probability BookingAmount RevenueAmount SnapshotDate1 CreationDate1 CloseDate1 null null ...

2 la respuesta

PySpark: ¿Cómo rellenar valores en el marco de datos para columnas específicas?

Tengo el siguiente DataFrame de muestra: a | b | c | 1 | 2 | 4 | 0 | null | null| null | 3 | 4 |Y quiero reemplazar los valores nulos solo en las 2 primeras columnas - Columna "a" y "b": a | b | c | 1 | 2 | 4 | 0 | 0 | null| 0 | 3 | 4 |Aquí ...

1 la respuesta

Pyspark - ValueError: no se pudo convertir la cadena en flotante / literal no válido para float ()

Estoy tratando de usar datos de un marco de datos de chispa como entrada para mi modelo k-means. Sin embargo, sigo recibiendo errores. (Ver sección después del código) Mi marco de datos de chispa y se ve así (y tiene alrededor de 1 millón ...