Resultados de la búsqueda a petición "spark-dataframe"

Tengo un marco de datos Spark existente que tiene columnas como tales: -------------------- pid | response -------------------- 12 | {"status":"200"}La respuesta es una columna de cadena. ¿Hay alguna manera de convertirlo en JSON y extraer ...

apache-spark rdd apache-spark-2.0 bigdata

2 la respuesta

Partición de parquet Spark: gran cantidad de archivos

Estoy tratando de aprovechar la partición de chispas. Estaba tratando de hacer algo como data.write.partitionBy("key").parquet("/location")El problema aquí es que cada partición crea una gran cantidad de archivos de parquet que resultan en ...

apache-spark pyspark

3 la respuesta

Pyspark: Pase múltiples columnas en UDF

Estoy escribiendo una función definida por el usuario que tomará todas las columnas excepto la primera en un marco de datos y sumará (o cualquier otra operación). Ahora el marco de datos a veces puede tener 3 columnas o 4 columnas o más. ...

python pyspark k-means

1 la respuesta

Pyspark - ValueError: no se pudo convertir la cadena en flotante / literal no válido para float ()

Estoy tratando de usar datos de un marco de datos de chispa como entrada para mi modelo k-means. Sin embargo, sigo recibiendo errores. (Ver sección después del código) Mi marco de datos de chispa y se ve así (y tiene alrededor de 1 millón ...

apache-spark pyspark rdd

1 la respuesta

¿Cómo escribir Pyspark UDAF en varias columnas?

Tengo los siguientes datos en un marco de datos pyspark llamadoend_stats_df: values start end cat1 cat2 10 1 2 A B 11 1 2 C B 12 1 2 D B 510 1 2 D C 550 1 2 C B 500 1 2 A B 80 1 3 A BY quiero agregarlo de la siguiente manera: Quiero usar las ...

scala hadoop apache-spark

2 la respuesta

Spark dataframe: Pivot y Group basado en columnas

Tengo el marco de datos de entrada como se muestra a continuación con ID, aplicación y cliente Marco de datos de entrada +--------------------+-----+---------+ | id|app |customer | +--------------------+-----+---------+ |id1 | fw| WM | |id1 | ...

apache-spark pyspark

2 la respuesta

PySpark: ¿Cómo rellenar valores en el marco de datos para columnas específicas?

Tengo el siguiente DataFrame de muestra: a | b | c | 1 | 2 | 4 | 0 | null | null| null | 3 | 4 |Y quiero reemplazar los valores nulos solo en las 2 primeras columnas - Columna "a" y "b": a | b | c | 1 | 2 | 4 | 0 | 0 | null| 0 | 3 | 4 |Aquí ...

join multiple-columns scala

1 la respuesta

unir dinámicamente dos marcos de datos de spark-scala en varias columnas sin condiciones de unión de codificación fija

Me gustaría unir dos marcos de datos de spark-scala en varias columnas dinámicamente. Evitaría la comparación del nombre de la columna de codificación rígida como se muestra en las siguientes declaraciones; val joinRes = df1.join(df2, ...

apache-spark apache-spark-sql

2 la respuesta

cómo obtener meses, años de diferencia entre dos fechas en sparksql

Recibo el error: org.apache.spark.sql.analysisexception: cannot resolve 'year'Mis datos de entrada: 1,2012-07-21,2014-04-09Mi código: val sqlContext = new org.apache.spark.sql.SQLContext(sc) import sqlContext.implicits._ import ...

scala apache-spark apache-spark-sql

2 la respuesta

eliminar columnas NULL en Spark SQL

¿Cómo eliminar columnas que contienen solo valores nulos de una tabla? Supongamos que tengo una mesa. SnapshotDate CreationDate Country Region CloseDate Probability BookingAmount RevenueAmount SnapshotDate1 CreationDate1 CloseDate1 null null ...

Página 8 de 12

6 789 10

Resultados de la búsqueda a petición "spark-dataframe"

¿Cómo puede analizar una cadena que es json de una tabla temporal existente usando PySpark?

Partición de parquet Spark: gran cantidad de archivos

Pyspark: Pase múltiples columnas en UDF

Etiquetas Populares

Pyspark - ValueError: no se pudo convertir la cadena en flotante / literal no válido para float ()

¿Cómo escribir Pyspark UDAF en varias columnas?

Spark dataframe: Pivot y Group basado en columnas

PySpark: ¿Cómo rellenar valores en el marco de datos para columnas específicas?

unir dinámicamente dos marcos de datos de spark-scala en varias columnas sin condiciones de unión de codificación fija

cómo obtener meses, años de diferencia entre dos fechas en sparksql

eliminar columnas NULL en Spark SQL

¡Eres muy activo! ¡Es genial!

Resultados de la búsqueda a petición "spark-dataframe"

Etiquetas Populares