Resultados de la búsqueda a petición "apache-spark-sql"

2 la respuesta

Convierta columnas de un marco de datos Spark con una matriz de objetos JSON en varias filas

Tengo una transmisión de datos JSON, cuya estructura se puede describir con la clase de caso a continuación case class Hello(A: String, B: Array[Map[String, String]]) Los datos de muestra para el mismo son los siguientes | A | B | ...

1 la respuesta

Particionar un gran conjunto de datos sesgados en S3 con el método de la partición de Spark

stoy tratando de escribir un gran conjunto de datos particionados en el disco con Spark y lapartitionByl algoritmo @ está luchando con los dos enfoques que he probado. Las particiones están muy sesgadas: algunas de las particiones son masivas ...

2 la respuesta

¿Producto acumulativo en Spark?

Intento implementar un producto acumulativo en Spark scala pero realmente no sé cómo hacerlo. Tengo el siguiente marco de datos: Input data: +--+--+--------+----+ |A |B | date | val| +--+--+--------+----+ |rr|gg|20171103| 2 | |hh|jj|20171103| 3 ...

2 la respuesta

obtenga los primeros N elementos de la columna ArrayType del marco de datos en pyspark

Tengo un marco de datos de chispa con filas como - 1 | [a, b, c] 2 | [d, e, f] 3 | [g, h, i] Ahora quiero conservar solo los primeros 2 elementos de la columna de matriz. 1 | [a, b] 2 | [d, e] 3 | [g, h] ¿Cómo se puede lograr eso? Nota: ...

0 la respuesta

¿Cómo comparar los encabezados de df con otros encabezados de df usando Fuzzy Matching en pyspark?

He creado 3 marcos de datos ejecutando el siguiente código. sample.csv id|code|name|Lname|mname 2|AA|BB|CC|DD| sample1.csv id|code|name|Lname|mname 1|A|B|C|D| sample2.csv id1|code1|name1|Lnam|mnam 3|AAA|BBB|CCC|DDD| He comparado los ...

1 la respuesta

spark data frame nivel de fila y columna de operación usando scala

Marco de datos original 0.2 0.3 +------+------------- -+ | name| country | +------+---------------+ |Raju |UAS | |Ram |Pak. | |null |China | |null |null | +------+--------------+ I Need this +------+--------------+ |Nwet|wet Con | ...

3 la respuesta

¿Cómo optimizar el particionamiento al migrar datos desde la fuente JDBC?

Estoy tratando de mover datos de una tabla en la tabla PostgreSQL a una tabla Hive en HDFS. Para hacer eso, se me ocurrió el siguiente código: val conf = ...

1 la respuesta

agregándose con una condición en groupby spark dataframe

Tengo un marco de datos id lat long lag_lat lag_long detector lag_interval gpsdt lead_gpsdt 1 12 13 12 13 1 [1.5,3.5] 4 4.5 1 12 13 12 13 1 null 4.5 5 1 12 13 12 13 1 null 5 5.5 1 12 13 12 13 1 null 5.5 6 1 13 14 12 13 2 null 6 6.5 1 13 14 13 ...

3 la respuesta

Procesamiento de columnas eficiente en PySpark

Tengo un marco de datos con una gran cantidad de columnas (> 30000). Lo estoy llenando con1 y0 basado en la primera columna como esta: for column in list_of_column_names: df = df.withColumn(column, when(array_contains(df['list_column'], ...

1 la respuesta

Manipulación de fila para Dataframe en chispa [duplicado]

Esta pregunta ya tiene una respuesta aquí: Cómo mapear un Dataframe anidado en Spark [/questions/36784735/how-to-flatmap-a-nested-dataframe-in-spark] 1 respuesta Tengo un marco de datos en chispa que es como: column_A | column_B --------- ...